搜索引擎的工作過(guò)程大致可以分為三個(gè)階段:
(1)爬行:搜索引擎蜘蛛通過(guò)跟蹤鏈接來(lái)查找和訪問(wèn)頁(yè)面,讀取頁(yè)面的HTML代碼,并將其保存在數(shù)據(jù)庫(kù)中。
(2)預(yù)處理:索引程序?qū)Σ东@的頁(yè)面數(shù)據(jù)進(jìn)行文本提取、中文分詞、索引、倒排索引等處理,調(diào)用排名程序。
(3)排名:用戶輸入查詢?cè)~(關(guān)鍵字)后,排名程序調(diào)用索引數(shù)據(jù),計(jì)算相關(guān)性,然后按一定格式生成搜索結(jié)果頁(yè)面。
爬行是搜索引擎工作的首步,完成數(shù)據(jù)采集任務(wù)。搜索引擎用來(lái)抓取頁(yè)面的程序叫做蜘蛛
一個(gè)合格的SEOER,為了讓自己的頁(yè)面更多的被收錄,我們必須盡量吸引蜘蛛來(lái)抓取。
蜘蛛抓取頁(yè)面有幾個(gè)因素:
(1)網(wǎng)站和頁(yè)面的權(quán)重。高質(zhì)量、長(zhǎng)時(shí)間的網(wǎng)站通常被認(rèn)為是具有高權(quán)重、高爬行深度和更多包含頁(yè)面的網(wǎng)站。
(2)頁(yè)面的更新頻率。每次蜘蛛爬行,它都會(huì)存儲(chǔ)頁(yè)面數(shù)據(jù)。如果第二次和第三次與初次相同,則表示沒(méi)有更新。隨著時(shí)間的推移,蜘蛛不需要經(jīng)常抓取你的頁(yè)面。如果內(nèi)容經(jīng)常更新,蜘蛛會(huì)頻繁訪問(wèn)頁(yè)面以獲取新頁(yè)面。
(3)導(dǎo)入鏈接,無(wú)論是內(nèi)部鏈接還是外部鏈接,都要被蜘蛛抓取,必須有導(dǎo)入鏈接進(jìn)入頁(yè)面,否則蜘蛛就不會(huì)知道頁(yè)面的存在。
(4)與主頁(yè)的點(diǎn)擊距離一般是網(wǎng)站上權(quán)重較高的主頁(yè),而且大部分外部鏈接都會(huì)指向主頁(yè),所以蜘蛛比較常訪問(wèn)的頁(yè)面就是主頁(yè)。與主頁(yè)的單擊距離越近,頁(yè)面權(quán)重越高,被爬網(wǎng)的機(jī)會(huì)就越大。
堅(jiān)持網(wǎng)站內(nèi)容更新的頻率,較好的是高質(zhì)量的原創(chuàng)內(nèi)容。
主動(dòng)把我們的新頁(yè)面提供給搜索引擎,讓蜘蛛更快地找到它們,比如百度的鏈接提交、抓取診斷等。
要建立外部鏈接,可以與相關(guān)網(wǎng)站交換鏈接,也可以轉(zhuǎn)到其他平臺(tái),發(fā)布指向自己頁(yè)面、包含相關(guān)內(nèi)容的高質(zhì)量文章。
要制作網(wǎng)站地圖,每個(gè)網(wǎng)站都應(yīng)該有一個(gè)網(wǎng)站地圖。網(wǎng)站的所有頁(yè)面都在網(wǎng)站地圖中,方便蜘蛛抓取。