做seo就是為了取悅搜索引擎那么我們必須要了解搜索引擎抓取頁面的方式 搜索引擎不可能一次性抓取到網(wǎng)站中所有的頁面而且網(wǎng)站中頁面的數(shù)量也會(huì)不斷地變化內(nèi)容也在不斷地更新。因此搜索引擎還需要對已經(jīng)抓取的頁面進(jìn)行維護(hù)、更新以便能及時(shí)獲取頁面中最新的信息及抓取更多的新頁面。常見頁面維護(hù)方式包括定期抓取、增量抓取及分類定位抓取。
●定期抓取 定期抓取也稱為周期性抓取即搜索引擎周期性地對網(wǎng)站中已收錄的頁面進(jìn)行全面更新。更新的時(shí)候把抓取到的新頁面替換原有的舊頁面刪除不存在的頁面并存儲(chǔ)新發(fā)現(xiàn)的頁面。周期性更新針對的是全部已收錄的頁面因此更新周期會(huì)比較長。例如Google-般是3060天才會(huì)對已收錄的頁面進(jìn)行更新。 定期抓取算法的實(shí)現(xiàn)相對簡單。由于每次更新涉及到網(wǎng)站中所有已經(jīng)收錄的頁面因此頁面權(quán)重的再分配也是同步進(jìn)行的。這種方式適用于維護(hù)頁面比較少、內(nèi)容更新緩慢的網(wǎng)站例如普通的企業(yè)網(wǎng)站。但是由于更新周期十分漫長這就導(dǎo)致不能及時(shí)向用戶反映更新其間頁面的變化情況。例如某個(gè)頁面的內(nèi)容更新以后至少需要3060天才能在搜索引擎上有所體現(xiàn)。
●增量抓取 增量抓取是通過對已抓取的頁面進(jìn)行定時(shí)監(jiān)控實(shí)現(xiàn)對頁面的更新及維護(hù)。但是對網(wǎng)站中的每個(gè)頁面都進(jìn)行定時(shí)監(jiān)控的做法是不現(xiàn)實(shí)的;谥匾撁鏀y帶重要內(nèi)容的思想以及80/20法則搜索引擎只需對網(wǎng)站中部分重要頁面進(jìn)行定時(shí)的監(jiān)控即可獲取網(wǎng)站中相對重要的信息。因此增量抓取只針對網(wǎng)站中某些重要的頁面而非所有已經(jīng)收錄的頁面這也是為什么搜索引擎對重要頁面的更新周期會(huì)更短的原因。例如內(nèi)容經(jīng)常更新的頁面搜索引擎也會(huì)經(jīng)常對其進(jìn)行更新從而可以及時(shí)發(fā)現(xiàn)新內(nèi)容、新鏈接并刪除不存在的信息。 由于增量抓取是在原有頁面的基礎(chǔ)上進(jìn)行的因此會(huì)大大縮減搜索引擎的抓取時(shí)間而且還可以及時(shí)向用戶展示頁面中最新的內(nèi)容。
●分類定位抓取 與增量抓取由頁面重要性決定不同分類定位抓取是指根據(jù)頁面的類別或性質(zhì)而制定相應(yīng)更新周期的頁面監(jiān)控方式。例如對于“新聞資訊”與“資源下載”這兩類頁面新聞資訊類頁面的更新周期可以精確到每分鐘而下載類頁面更新周期就可以定為一天或更長。 分類定位抓取對不同類別的頁面進(jìn)行分開處理這樣就可以節(jié)省大量的抓取時(shí)間并大大提高頁面內(nèi)容的實(shí)時(shí)性也增強(qiáng)頁面抓取的靈活性。但是按照類別而制定頁面更新周期的方式比較籠統(tǒng)很難跟蹤頁面的更新情況。因?yàn)榧词故窍嗤悇e的頁面在不同的網(wǎng)站上內(nèi)容的更新周期也會(huì)存在很大的差別。例如新聞?lì)愴撁妾┰诖笮烷T戶網(wǎng)站中內(nèi)容的更新速度就會(huì)比其他小型網(wǎng)站快得多。
所以還需要結(jié)合其他的方式例如增量抓取等對頁面進(jìn)行監(jiān)控、更新。 實(shí)際上搜索引擎對網(wǎng)站中頁面的維護(hù)也是結(jié)合多種方式進(jìn)行相當(dāng)于間接為每一個(gè)頁面選擇最合適的維護(hù)方式。這樣既可以減少搜索引擎的負(fù)擔(dān)又可以為用戶提供及時(shí)的信息。 例如在一個(gè)網(wǎng)站中會(huì)存在多種不同性質(zhì)的頁面常見的包括首頁、論壇頁面、內(nèi)容頁面等。對于更新比較頻繁的頁面例如首頁可以使用增量抓取方式對其進(jìn)行監(jiān)控這樣就可以對網(wǎng)站中相對重要的頁面進(jìn)行及時(shí)更新而對于實(shí)時(shí)性非常高的論壇頁面則可以采用分類定位的抓取方式而為了防止遺漏網(wǎng)站中的某些頁面還需要采用定期抓取的方式。