網址URL規范化(URL canonicalization)是近一年來在Google搜索結果中出現的一個很大的問題。它指的是搜索引擎挑選最好的URL網址作為真正網址的過程。舉例來說,下面這幾個URL一般來說指的是同一個文件或網頁:
http://1mkt.net/index.html
http://1mkt.net/index.html
但是從技術上來講,這幾個URL網址都是不同的。雖然在絕大部分情況下,這些網址所返回的都是相同的文件,也就是你的主頁。但是從技術上來說,主機完全可以對這幾個網址返回不同的內容。
當搜索引擎要規范化網址時,搜索引擎需要從這些選擇當中挑一個最好的代表。一般來說,你的主頁應該是固定的,只有一個。但是有的時候,在很多網站上站長在鏈接回主頁時,所使用的URL并不是唯一的。很可能在你的網站上,一會連到URL,一會兒連到URL/index.html。
雖然這不會給訪客造成什么麻煩,因為這些網址都是同一個文件,但是對Google來說卻是造成了困惑,哪一個網址是你真正的主頁呢?如果在你的網站上,不同的版本網址都大量出現,那么這兩個URL可能都會被Google收錄進數據庫,這時就會造成復制內容網頁。
所謂復制內容網頁,指的是兩個或多個網頁的內容是相同或大部分相似的。很多時候,復制網頁有可能是作弊手段。就算不是作弊手段的時候,搜索引擎通常也只會挑出其中一個返回搜索結果,而把其他的復制網頁都排在最后面,以至于根本找不到。
當你的網站出現網址URL規范化問題的時候,就有可能造成被懷疑為復制網頁,因而影響搜索引擎結果排名。
從Google的角度來說,他們正在發展所謂大爸爸數據中心基本架構,來解決包括URL規范化的問題。但誰知道能不能解決呢?
從站長的角度來考慮,你應該做兩件事:
1.你的網站內部在鏈接到其他網頁,尤其是主頁時,只使用一種URL。不管是包含www或不包含www,你要由始至終只使用一個版本。這樣搜索引擎也就明白哪一個是規范化的主頁網址。
2.但是你沒辦法控制別的網站用哪一個網址連向你的主頁。所以你應該在你的主機服務器上,把所有有可能成為主頁網址的URL,做301重定向到你所選擇的主頁網址版本。也就是說,從下面這幾個網址
http://1mkt.net/index.html
http://1mkt.net/index.html
都要做301重定向到這個網址。很重要的一點是,如果你的網站出現了URL規范化的問題,千萬不能使用Google的網址刪除反饋表,來要求刪除其中的一個網址版本。比如說,你所要的是帶有www的版本
你千萬不能到Google的網站上填表,要求沒有www的主頁網址
http://1mkt.net
被刪除掉。因為那樣做的話,你整個的域名有可能被刪除6個月。
當然,除了包含www和不包含www的兩個版本以外,還有其他類型的URL規范化問題。比如有的時候,搜索引擎會去掉或加上網址尾端最后的斜線。有的時候會嘗試把大寫字母換成小寫字母,有的時候可能嘗試去掉會話ID(session ID)等等,這些都有可能造成網址規范化問題。