平常,我們可以通過百度搜索到我們想要看到的內(nèi)容,而這些內(nèi)容是哪里來的呢?實(shí)際上是因?yàn)榘俣劝褎e人網(wǎng)站上的這些頁面收錄到百度的索引數(shù)據(jù)庫里,根據(jù)用戶的搜索請(qǐng)求,通過應(yīng)用相關(guān)規(guī)則和程序分析,將最符合用戶搜索請(qǐng)求的結(jié)果展示給用戶。那么,百度是如何收錄網(wǎng)頁的呢?一個(gè)網(wǎng)站做好并上線投入運(yùn)營(yíng)到百度收錄網(wǎng)站需要一個(gè)過程,而這個(gè)過程就是我們所要探討的問題。
每一個(gè)新網(wǎng)站上線,都不會(huì)立即引起搜索引擎的注意,搜索引擎不知道你的網(wǎng)站是否真的上線投入運(yùn)營(yíng)了。但是,百度會(huì)定期嘗試訪問已被注冊(cè)的域名,看看通過這個(gè)域名是否可以打開網(wǎng)站。當(dāng)然,你也可以把網(wǎng)站主動(dòng)提交到搜索引擎,這就相當(dāng)于告訴搜索引擎:“我的網(wǎng)站上線了,快來收錄吧”。也可以通過在其它網(wǎng)站上增加一些外部鏈接,從而引導(dǎo)搜索引擎前來抓取。一旦搜索引擎前來訪問,并且發(fā)現(xiàn)網(wǎng)站是可以打開的,這時(shí),有一個(gè)叫“百度蜘蛛”的東西就會(huì)來到網(wǎng)站并在網(wǎng)站里到處爬行。注意了,這不是動(dòng)物,它是一個(gè)用戶檢索網(wǎng)站里各個(gè)網(wǎng)頁的程序,由于它能在網(wǎng)站里到處檢索,所以,我們才稱它為“蜘蛛”。
百度蜘蛛來到網(wǎng)站后,它會(huì)爬行網(wǎng)站里的還沒有被收錄的頁面,當(dāng)然,也會(huì)定期爬行已被收錄的頁面。由于百度蜘蛛會(huì)根據(jù)網(wǎng)站的目標(biāo)一層一層進(jìn)行爬行,這就引出另一個(gè)問題。什么樣的網(wǎng)站才更適合搜索引擎爬行呢?首先,你的網(wǎng)站主要鏈接絕對(duì)不能做在FLASH里,因?yàn)橹┲氩徽J(rèn)識(shí)FLASH。比如很多網(wǎng)站為了給用戶更好的視覺效果,把主菜單做成FLASH動(dòng)畫,那樣就基本阻斷了百度蜘蛛的爬行,從而導(dǎo)致網(wǎng)站不被收錄。另外,網(wǎng)站目錄不能超過3級(jí),換個(gè)思路講就是站在網(wǎng)站瀏覽者的角度,網(wǎng)站人任何頁面從打開首頁到找到這個(gè)頁面不能超過3次點(diǎn)擊。太深的網(wǎng)站目標(biāo)結(jié)構(gòu)會(huì)導(dǎo)致百度蜘蛛疲勞,從而大大降低抓取效率。如果排版允許的話,最好做上包屑導(dǎo)航,以更好的引導(dǎo)百度蜘蛛進(jìn)行爬行。百度蜘蛛在爬行過程中所發(fā)現(xiàn)的網(wǎng)頁都會(huì)抓取到百度的數(shù)據(jù)庫里,但并不意味著所有網(wǎng)頁都會(huì)建立搜引并出現(xiàn)在用戶的搜索結(jié)果中,還需要面臨一個(gè)審核的過程。這個(gè)審核的過程是機(jī)器智能自動(dòng)操作的,而審核的目的則是檢查這個(gè)網(wǎng)頁是否有價(jià)值是否值得向用戶展示。符合條件的網(wǎng)頁將被建立索引,并在用戶搜索與該網(wǎng)站相關(guān)的關(guān)鍵詞時(shí)有可能展示給用戶。對(duì)于一些低劣的網(wǎng)頁(比如過度優(yōu)化、抄襲、非法),百度則會(huì)忽略。其實(shí)很多朋友都在抱怨,我的網(wǎng)站里明明有1000個(gè)網(wǎng)頁,為什么只收錄200個(gè)?顯然,這是因?yàn)榇罅烤W(wǎng)頁不符合百度的收錄標(biāo)準(zhǔn)導(dǎo)致的。
我們建議您好好組織網(wǎng)站內(nèi)容,做好網(wǎng)站的內(nèi)容建設(shè),并且上傳一些原創(chuàng)的、有價(jià)值的、帶有新觀點(diǎn)的文章,這樣的網(wǎng)頁必定會(huì)獲得搜索引擎的重視。你能向百度提供優(yōu)質(zhì)內(nèi)容,作為回報(bào),百度也會(huì)給你應(yīng)得的流量。