很多站長在網(wǎng)站建設(shè)時(shí),有時(shí)會(huì)遇到問題,那就是頁面的相似性。什么是網(wǎng)頁相似度?簡單地說,所謂的網(wǎng)頁相似度就是兩個(gè)頁面的相似度。這兩個(gè)頁面可能是同一站點(diǎn)上的頁面,可能不是同一站點(diǎn)上的頁面,也可能是其他站點(diǎn)上的頁面。當(dāng)搜索引擎收錄網(wǎng)頁時(shí),它通常會(huì)比較兩個(gè)網(wǎng)頁以查看它們是否相似。

所謂相似,是指兩個(gè)網(wǎng)頁的頁面內(nèi)容基本相同。在這種情況下,可以將兩個(gè)網(wǎng)頁視為相似的。比較兩個(gè)網(wǎng)頁搜索引擎時(shí),使用一種特定的算法進(jìn)行比較,搜索引擎通常使用兩種方法進(jìn)行比較:一種基于網(wǎng)頁摘要比較,如果多個(gè)網(wǎng)頁摘要的md5值相同,則證明這些頁面具有高度相似性。其次,根據(jù)頁面關(guān)鍵詞,按照關(guān)鍵詞頻率順序,可以取N個(gè)高頻詞,如果它們的md5值相同,則可以認(rèn)為這些頁面具有高度相似性。Google搜索引擎將網(wǎng)頁的相似度設(shè)置為60%。即,如果兩個(gè)網(wǎng)頁的相似度超過60%,則不再收錄正在比較的網(wǎng)頁。如果相似度接近60%,則可以收錄比較頁,但是搜索引擎的權(quán)重相對較低。這就是搜索引擎對待網(wǎng)絡(luò)相似性的方式??梢钥闯鲰撁嫦嗨贫葘ξ覀兙W(wǎng)站的影響主要取決于是否可以收錄被比較頁面,而對其他方面沒有影響。
網(wǎng)站建設(shè)出現(xiàn)類似問題的主要原因有兩個(gè):
?。?)在同一個(gè)網(wǎng)站上,將舊網(wǎng)頁復(fù)制到新網(wǎng)頁中,導(dǎo)致內(nèi)部網(wǎng)頁的標(biāo)題,關(guān)鍵詞,描述信息,內(nèi)容更改相對較少,結(jié)果判斷搜索引擎的相似性。
?。?)在不同站點(diǎn)之間,將原本已收錄在網(wǎng)站內(nèi)容中,并稍作更改或偽原創(chuàng),導(dǎo)致內(nèi)容更改較少,或者只是一段調(diào)整,內(nèi)容未更改,類似于復(fù)制;被搜索引擎判斷為相似。判斷Web搜索引擎的相似性非常聰明,不是我們想象的從頭到尾的簡單比較,而是智能分析和比較,我們不冒險(xiǎn),認(rèn)為復(fù)制別人的Web內(nèi)容,給出一個(gè)簡單的變化就可以蒙混過關(guān)。
出現(xiàn)問題時(shí),我們需要糾正它,以免下次再次犯同樣的錯(cuò)誤。關(guān)于網(wǎng)站建設(shè)中網(wǎng)頁的相似性,我們知道形成的原因,我們就可以找到解決措施。解決相似網(wǎng)頁的更有效方法是做您真正的原創(chuàng),如果您的網(wǎng)頁內(nèi)容是原創(chuàng)的,只要內(nèi)容質(zhì)量很高,肯定不會(huì)因?yàn)榫W(wǎng)頁相似度而出現(xiàn)問題并且不收錄在內(nèi),普通的可以被收錄在內(nèi)。如果您沒有太多的空閑時(shí)間撰寫原創(chuàng)文章,或者由于問題的程度而無法撰寫高質(zhì)量的原創(chuàng)文章,您也可以偽造文章,但是我們建議您避免出現(xiàn)類似的問題頁面,您需要在原始文章中進(jìn)行重大更改,變化的程度至少也要超過50%,因此您可能包括搜索引擎。
另外,我們建議您在網(wǎng)頁中擔(dān)任站長,以節(jié)省時(shí)間,如果您需要復(fù)制原始網(wǎng)頁,那么我們也建議您的網(wǎng)頁中的標(biāo)題,關(guān)鍵字,描述信息和內(nèi)容也應(yīng)發(fā)生重大變化,否則很難收錄您的網(wǎng)頁。進(jìn)行更改時(shí),可以用其他方式替換原始代碼,例如用iFrame框架替換內(nèi)容的前一部分,等等。
對于不懂怎么建設(shè)網(wǎng)站的新手們,為了避免后期麻煩,小編建議大家在網(wǎng)站建設(shè)時(shí),還是應(yīng)注意網(wǎng)頁相似度問題。