很多站長都會遇到這個問題,網(wǎng)站開發(fā)完成上線后,百度一直不收錄。即使收錄也只是收錄個首頁,內(nèi)頁很難快速被收錄。如何解決這個問題?搜索引擎的進化在互聯(lián)網(wǎng)早期,網(wǎng)站數(shù)量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網(wǎng)站數(shù)據(jù)庫,分門別類的整理好各種網(wǎng)址。
后來全球網(wǎng)站數(shù)量爆炸性增長,人工整理就不現(xiàn)實了,于是有了網(wǎng)絡(luò)爬蟲(也叫蜘蛛)代替人工去訪問抓取網(wǎng)站,這就是最原始的搜索引擎。雖然互聯(lián)網(wǎng)是一個網(wǎng)狀結(jié)構(gòu),但是抓取整個互聯(lián)網(wǎng)上的所有網(wǎng)站還是有難度的,首先要解決的問題就是如何發(fā)現(xiàn)這些網(wǎng)站。
為了解決這個問題,搜索引擎都會有一個基礎(chǔ)的網(wǎng)站數(shù)據(jù)庫,從這里的網(wǎng)站開始爬取,希望能抓取整個互聯(lián)網(wǎng)上的信息。而且依靠鏈接之間的引用關(guān)系和使用的鏈接文本來計算網(wǎng)頁的權(quán)重,從而能對搜索結(jié)果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的網(wǎng)站作為爬蟲的抓取起點,而且懷疑Google也使用DMOZ數(shù)據(jù),因為10多年前做網(wǎng)站時,大家都希望自己的網(wǎng)站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。
還有那時候大家都拼命交換友情鏈接,PR值高的網(wǎng)站就是大爺。這背后對應(yīng)著網(wǎng)站的收錄速度和排名高低。
一個新網(wǎng)站,如果有PR值高的網(wǎng)站給你加友情鏈接,很快網(wǎng)站就可以被抓取收錄。早期互聯(lián)網(wǎng)內(nèi)容貧乏,隨便做個網(wǎng)站,找有權(quán)重的網(wǎng)站交換友情鏈接,這些搜索引擎爬蟲都如饑似渴的抓取收錄??涩F(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容太多了(Google的總索引頁面數(shù)477億左右)),搜索引擎也變得越來越挑剔,所以新站起流量越來越難了。
用新注冊的域名做網(wǎng)站,從被百度收錄到有排名需要很長的時間。
就像你遇到一個陌生人,你完全不知道他的底細(xì),考核觀察的時間就會很長。
所以希望網(wǎng)站快速被收錄,建議花錢買老域名,而且最好選域名注冊歷史久、沒有不良記錄、各大搜索引擎還有殘留索引記錄的為佳。
什么叫“沒有不良記錄”?
域名沒有做過黃、賭、毒、醫(yī)療等違法或灰色行業(yè)。
多點擊一些網(wǎng)頁快照,看看年初的月份,再看看近期的快照。還有一點就是,查看快照時候,右鍵查看下頁面源碼,看底部的友情鏈接部分有沒有違法網(wǎng)站,避免選擇被黑過的網(wǎng)站。
而且如果一個域名長達一年多沒有做過網(wǎng)站,可能也要放棄。關(guān)于購買老域名,可以上聚名網(wǎng)或其他提供老域名搶注或交易的網(wǎng)站,平均價格在100-200之間。
基礎(chǔ)的域名數(shù)據(jù),比如百度權(quán)重,各個搜索引擎的收錄情況,可以使用愛站SEO助手或自己寫程序抓取。以上技巧很實用,前段時間跟一個朋友學(xué)的。
投懷送抱法
1、主動推送:最為快速的提交方式。
適用場景:把網(wǎng)站當(dāng)天新產(chǎn)生的鏈接通過這種方式推給百度,保證新鏈接可以及時被百度收錄。
在站長平臺后臺點擊“網(wǎng)頁抓取”->“鏈接提交”可以看到具體的使用說明,百度提供有curl、php和ruby等樣例代碼。
2、自動推送:最為方便的提交方式。
使用方法:將自動推送的JS代碼加到網(wǎng)站每個頁面里,當(dāng)有用戶訪問這個頁面時,頁面鏈接就會自動推送給百度。可以配合主動推送使用。
3、Sitemap:傳統(tǒng)提交方式。
很多網(wǎng)站CMS都提供生成Sitemap的功能,如果沒有的話,需要借助工具或自己寫代碼生成。通過Sitemap告訴百度蜘蛛哪些網(wǎng)頁希望被抓取。
百度Sitemap支持3種格式:txt文本格式、xml格式、Sitemap索引格式。
如果是小網(wǎng)站,頁面數(shù)量小于5萬,可以使用txt或xml格式的sitemap文件放到網(wǎng)站根目錄下就可以。
如果是網(wǎng)頁數(shù)量超過5萬,可以網(wǎng)址拆分成5萬為一組的xml文件,然后放到Sitemap索引文件中,通過站長平臺提交給百度。
具體格式參考百度官方說明:Sitemap提交工具站長資訊百度站長平臺
Sitemap提交方式收錄速度慢于主動推送。
4、手動提交:最偷懶的后臺提交方式。
通過百度站長后臺手動提交,一次只能提交20個網(wǎng)址。
但這里有原創(chuàng)提交入口,原創(chuàng)內(nèi)容可以通過這里提交。
主動提交Sitemap有利于百度對你網(wǎng)站內(nèi)容的識別抓取,但不一定會收錄所有網(wǎng)址,頁面質(zhì)量高才會收錄。
重復(fù)提交沒有用,反而會浪費主動推送配額。
有專門的移動版Sitemap格式,需要按百度要求格式制作提交.
搜索引擎雖然越來越高級,但是爬蟲(蜘蛛)的基本原理并沒有大變化。
想要頁面被收錄,就需要蜘蛛訪問抓取頁面,如果沒有蜘蛛光顧,網(wǎng)站被收錄就無從談起。
所以主動推廣,交換鏈接依然是加快收錄的有效手段。
如果你有一個百度抓取頻率很高的網(wǎng)站,在主要頁面上增加鏈接文本指向新站,引導(dǎo)蜘蛛抓取你的新站。還有些人會用一些黑帽手法,比如蜘蛛池,利用抓取的漏洞把百度蜘蛛困在資源站中,最后導(dǎo)出外鏈到新站以加快收錄。