第一, head部分。在我研究seo的這段時間里,我發現很多站長在列表頁和內容頁采用統一的關鍵詞和關鍵詞描述。這里就占了網頁相似度的10%。接著,我們繼續分析。
第二, 導航欄和側邊欄部分。是的,當我們流量很多網站在內容頁時,的確整個站的內容頁都是同樣的導航欄,側邊的一些推薦文章或產品都是同樣的。這里又占了網頁相似度的10%。
第三, 網頁的底部。我想我說到這里,大家應該很清楚了,有的網站采用了全站foot.html模板,是不是整個站的底部都是同樣友情鏈接,同樣的備案信息,同樣的公司名稱等。這里就占了網頁相似度的5%~10%。
我們通過以上的分析,我們可以知道就算我們不添加內容,該新網頁就與以前的網頁相似度達到了25%~30%。試想一下,我們更新和以往類似的文章,搜索引擎還會來收錄嗎?就算我們現在更新的內容與以前的相似度是50%,那么整個網頁的相似度就達到了75%~80%的這么一個高度。為什么當我們更新這類文章的時候,搜索引擎很快就收錄了,但是整個網站的收錄還是保持原樣。舉一個例子,我在當天更新了5篇文章,搜索引擎收錄了5篇,網站的總收錄為1000篇,按照理論上我們第二天的收錄量為1005篇的,但是通過site命令一查,仍是1000篇的收錄。后來通過分析,原來我們發現現在更新的文章的網頁與之前收錄的文章的網頁他們之間的相似度達到了90%,搜素引擎收錄了我們更新的文章,過濾掉了以前的文章的網頁。可能搜索引擎覺得新更新的要比之前的有價值,所以選擇了新更新的。
這里我們就引發出一個問題了,為什么有些轉載的文章也能被搜索引擎收錄呢?很大一部分原因是該文章在這個網站從沒出現過,再加上該文章在互聯網轉載的少,最后該文章與同類文章的相似度低。以上的針對的搜索引擎研究主要是百度,如果一個網頁的相似度做到30%的話,那么你的網站在的收錄量會提高1.5-2倍。對于搜搜和谷歌以及搜狗,效果會更明顯。