岳陽(yáng)網(wǎng)站建設(shè)之搜索引擎HITS算法是怎樣的?百度等搜索引擎的算法更新變得越來越頻繁,很多網(wǎng)站的關(guān)鍵詞排名也變得浮動(dòng)起來。但是你知道他們?yōu)槭裁催@么頻繁地改變算法嗎?不是想完善算法那么簡(jiǎn)單嗎?核心算法已經(jīng)成熟,我們來談?wù)凥ITS算法。
HITS算法是網(wǎng)絡(luò)結(jié)構(gòu)挖掘中權(quán)威和廣泛使用的算法。其基本思想是利用頁(yè)面之間的引用鏈,挖掘其中隱藏的有用信息(如權(quán)威),具有計(jì)算簡(jiǎn)單高效的特點(diǎn)。HITS算法通過兩種評(píng)價(jià)權(quán)值-內(nèi)容權(quán)威度和鏈接權(quán)威度來評(píng)價(jià)網(wǎng)頁(yè)的質(zhì)量。
內(nèi)容權(quán)威度與網(wǎng)頁(yè)本身直接提供內(nèi)容信息的質(zhì)量有關(guān),引用的網(wǎng)頁(yè)越多,關(guān)于網(wǎng)站建設(shè)設(shè)計(jì),內(nèi)容權(quán)威度越高的鏈接權(quán)威度與網(wǎng)頁(yè)提供的超鏈接網(wǎng)頁(yè)的質(zhì)量有關(guān),引用的高質(zhì)量網(wǎng)頁(yè)越多,鏈接權(quán)威度越高。
HITS算法認(rèn)為,在評(píng)頁(yè)面都應(yīng)該分別考慮內(nèi)容的權(quán)威性和鏈接的權(quán)威性,在評(píng)價(jià)頁(yè)面內(nèi)容的權(quán)威性的基礎(chǔ)上評(píng)價(jià)頁(yè)面的鏈接的權(quán)威性,進(jìn)行該頁(yè)面的綜合評(píng)價(jià)。但HITS算法也有明顯的不足。
首先,完全排除網(wǎng)頁(yè)的內(nèi)容和文本,只考慮網(wǎng)頁(yè)之間的鏈接結(jié)構(gòu),分析網(wǎng)頁(yè)的權(quán)威性,與現(xiàn)實(shí)網(wǎng)絡(luò)的權(quán)威網(wǎng)頁(yè)相比,不科學(xué)。因?yàn)闄?quán)威頁(yè)面必須對(duì)某個(gè)主題和關(guān)鍵詞來說。一個(gè)頁(yè)面對(duì)一個(gè)確定主題的權(quán)威性的頁(yè)面,并不意味著其他與主題無關(guān)的頁(yè)面也有權(quán)威性。
其次,一個(gè)頁(yè)面對(duì)另一個(gè)頁(yè)面的引用有很多種情況,其中包括一個(gè)頁(yè)面對(duì)另一個(gè)頁(yè)面的認(rèn)可,但此外還有其他目的鏈接,如導(dǎo)航或收費(fèi)廣告。HITS算法在實(shí)現(xiàn)過程中沒有考慮上述情況,導(dǎo)致結(jié)果和目標(biāo)之間的差距。對(duì)HITS算法的思想和實(shí)現(xiàn)過程進(jìn)行了詳細(xì)的研究和概括。
針對(duì)以前的靠前個(gè)不足,有關(guān)學(xué)者提出了利用超鏈接文字及其周圍文字與關(guān)鍵字一致計(jì)算超鏈接權(quán)值的方法,引入系數(shù)相對(duì)控制周圍文字和超鏈接文字,將頁(yè)面文字信息引入HITS算法,提高算法的可靠性,在現(xiàn)實(shí)中取得了良好的效果。
對(duì)HITS算法的第二個(gè)不足,即非正常目的的引用。在HITS算法中,也誤認(rèn)為是正常引用,導(dǎo)致實(shí)際結(jié)果和目標(biāo)的差異。后來,經(jīng)過不斷改進(jìn)。HITS算法還引入了時(shí)間參數(shù)。也就是說,利用對(duì)一鏈接引用時(shí),詢問長(zhǎng)度,評(píng)價(jià)是否為正常引用。非正常鏈接引用時(shí)不長(zhǎng)(交換鏈接、廣告鏈接等),相反,一頁(yè)對(duì)另一頁(yè)的鏈接時(shí)間長(zhǎng),關(guān)于企業(yè)網(wǎng)站模板,必然反映該頁(yè)是用戶的搜索頁(yè)。也就是說,目標(biāo)頁(yè)面或至少是正常引用。
假如設(shè)定時(shí)間閥值,能夠在HITS算法實(shí)現(xiàn)過程中篩選出非正常引用的鏈接。如果設(shè)定訪問時(shí)間少于1分鐘,則為非正常引用。此外,可以結(jié)構(gòu)時(shí)間訪問函數(shù),控制權(quán)威頁(yè)面的相對(duì)大小。隨著訪問時(shí)間的增加,權(quán)威性也逐漸非線性增加。這可以為HITS算法的權(quán)威頁(yè)面提供更合理、更科學(xué)的說明。鏈接的穩(wěn)定性,在外鏈接的建設(shè)中占有非常重要的地位。鏈接越穩(wěn)定,對(duì)排名的幫助就越大。
從HITS算法的這些特征可以看出,各大搜索引擎為什么每隔一段時(shí)間更新算法。