北京網(wǎng)站建設(shè)原創(chuàng)內(nèi)容的重要性是什么,你了解多少呢?網(wǎng)站建設(shè)做文章,原創(chuàng)一直是個(gè)大問(wèn)題。大的方面,互聯(lián)網(wǎng)的生態(tài)環(huán)境越來(lái)越差,偽原創(chuàng)中低質(zhì)量?jī)?nèi)容的收集猖獗,嚴(yán)重占用了高質(zhì)量原創(chuàng)資源的生存空間。導(dǎo)致互聯(lián)網(wǎng)資源整體質(zhì)量大幅下降,網(wǎng)民、優(yōu)質(zhì)站長(zhǎng)、搜索引擎受損。小范圍內(nèi),很多站長(zhǎng)一直在沒(méi)有適當(dāng)保護(hù)的情況下進(jìn)行原創(chuàng)建設(shè)。如何加大對(duì)網(wǎng)站原創(chuàng)的保護(hù)力度,如何衡量原創(chuàng)是否能滿足用戶需求,是一項(xiàng)艱巨的任務(wù)。為此,百度一直在進(jìn)行原創(chuàng)保護(hù)和展示建設(shè),關(guān)于建站,因?yàn)檫@是用戶的需求。雖然進(jìn)步緩慢,但客觀來(lái)說(shuō),進(jìn)步很大。那么百度如何保護(hù)原創(chuàng)呢?先說(shuō)百度的原創(chuàng)。
本文內(nèi)容主要分為以下五大點(diǎn):一、百度談原創(chuàng)項(xiàng)目;二、百度原創(chuàng)保護(hù)的進(jìn)展;三、站長(zhǎng)對(duì)原創(chuàng)保護(hù)的誤解;第四,用戶對(duì)原創(chuàng)的態(tài)度;5.對(duì)于大型網(wǎng)站來(lái)說(shuō),保護(hù)原創(chuàng)更是名副其實(shí),對(duì)于小站來(lái)說(shuō),更好的是保護(hù)高質(zhì)量的內(nèi)容。
1.百度談原創(chuàng)項(xiàng)目。
1.搜索引擎為什么要重視原創(chuàng)?
收藏泛濫。根據(jù)百度的一項(xiàng)調(diào)查,關(guān)于網(wǎng)站模板,超過(guò)80%的新聞和信息是人工復(fù)制或機(jī)器收集的。從傳統(tǒng)媒體的報(bào)紙到娛樂(lè)網(wǎng)站的花邊新聞,從游戲策略到產(chǎn)品評(píng)價(jià),甚至大學(xué)圖書館發(fā)的提醒,都有做機(jī)器收藏的網(wǎng)站??梢哉f(shuō)高質(zhì)量的原創(chuàng)內(nèi)容是茫茫收藏海中包圍的小米之一,搜索引擎在大海中搜索小米難度大,挑戰(zhàn)性大。
改善搜索用戶體驗(yàn)。
數(shù)字化降低了傳播成本,儀器化降低了獲取成本,機(jī)器獲取混淆了內(nèi)容來(lái)源,降低了內(nèi)容質(zhì)量。不經(jīng)意或有意出現(xiàn)的網(wǎng)頁(yè)內(nèi)容不全、格式混亂或附加垃圾等問(wèn)題層出不窮,嚴(yán)重影響了搜索結(jié)果的質(zhì)量和用戶體驗(yàn)。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗(yàn)。這里的原創(chuàng)指的是高質(zhì)量的原創(chuàng)內(nèi)容。
鼓勵(lì)原創(chuàng)作者和文章。
轉(zhuǎn)載收藏,分流優(yōu)質(zhì)原創(chuàng)網(wǎng)站的流量,關(guān)于自助建站,不再有原創(chuàng)作者的名字,會(huì)直接影響優(yōu)質(zhì)原創(chuàng)站長(zhǎng)和作者的收入。長(zhǎng)此以往,會(huì)影響原創(chuàng)作者的主動(dòng)性,不利于創(chuàng)新,也不利于新的高質(zhì)量?jī)?nèi)容的產(chǎn)生。鼓勵(lì)優(yōu)質(zhì)原創(chuàng),鼓勵(lì)創(chuàng)新,給予原創(chuàng)網(wǎng)站和作者合理的流量,從而促進(jìn)互聯(lián)網(wǎng)內(nèi)容的繁榮,應(yīng)該是搜索引擎的一項(xiàng)重要任務(wù)。
2.收藏很狡猾,很難鑒別原創(chuàng)。
收集假裝原創(chuàng),偽造的關(guān)鍵信息。目前,大量網(wǎng)站使用人工或機(jī)器方法篡改作者、發(fā)布時(shí)間、來(lái)源等關(guān)鍵信息,并冒充原創(chuàng)。這種冒充原創(chuàng)的行為需要搜索引擎識(shí)別并適當(dāng)調(diào)整。
內(nèi)容生成器,制造偽原創(chuàng)。
使用自動(dòng)文章生成器等工具“創(chuàng)建”一篇文章,然后安裝一個(gè)醒目的標(biāo)題,現(xiàn)在成本很低,而且必須是原創(chuàng)。但是,原創(chuàng)應(yīng)該具有社會(huì)共識(shí)的價(jià)值,而不是隨意做出一個(gè)完全不合理的垃圾,才算是有價(jià)值的高質(zhì)量的原創(chuàng)內(nèi)容。內(nèi)容雖然獨(dú)特,但沒(méi)有社會(huì)共識(shí)價(jià)值。這種偽原創(chuàng)需要被搜索引擎識(shí)別和攻擊。
網(wǎng)頁(yè)不同,提取結(jié)構(gòu)化信息比較困難。不同的站點(diǎn)結(jié)構(gòu)差異很大,html標(biāo)簽的含義和分布也不同,所以提取標(biāo)題、作者、時(shí)間等關(guān)鍵信息的難度也有很大差異。關(guān)于免費(fèi)模板,在中國(guó)互聯(lián)網(wǎng)目前的規(guī)模下并不容易,這一部分需要搜索引擎和站長(zhǎng)的合作才能順利運(yùn)行。如果站長(zhǎng)以更清晰的結(jié)構(gòu)將網(wǎng)頁(yè)的布局告知搜索引擎,搜索引擎將高效地提取出原始的相關(guān)信息。
3.百度如何識(shí)別原創(chuàng)?
成立原創(chuàng)項(xiàng)目組打持久戰(zhàn)。面對(duì)挑戰(zhàn),為了提高搜索引擎的用戶體驗(yàn),為了讓高質(zhì)量原創(chuàng)創(chuàng)作者的原創(chuàng)網(wǎng)站獲得應(yīng)有的收益,為了推動(dòng)中國(guó)互聯(lián)網(wǎng)的進(jìn)步,我們吸引了大量的人組成原創(chuàng)項(xiàng)目團(tuán)隊(duì):技術(shù)、產(chǎn)品、運(yùn)營(yíng)、法務(wù)等。這不是臨時(shí)組織,不是一個(gè)月兩個(gè)月的工程,我們準(zhǔn)備打持久戰(zhàn)。原始識(shí)別“原點(diǎn)”算法。
網(wǎng)上有幾十億上千億的網(wǎng)頁(yè),可以說(shuō)大海撈針很復(fù)雜。我們?cè)诎俣却髷?shù)據(jù)云計(jì)算平臺(tái)上開(kāi)發(fā)的原創(chuàng)識(shí)別系統(tǒng),可以快速實(shí)現(xiàn)所有中文網(wǎng)頁(yè)的重復(fù)聚合和鏈接指向關(guān)系分析。首先,通過(guò)內(nèi)容相似度對(duì)收藏和原創(chuàng)進(jìn)行聚合,將相似網(wǎng)頁(yè)聚合在一起作為原創(chuàng)識(shí)別的候選集合。其次,對(duì)于原始候選集,利用作者、發(fā)布時(shí)間、鏈接指向、用戶評(píng)論、作者和站點(diǎn)的歷史原創(chuàng)性、轉(zhuǎn)發(fā)軌跡等數(shù)百個(gè)因素來(lái)識(shí)別和判斷原始網(wǎng)頁(yè);后通過(guò)價(jià)值分析系統(tǒng)來(lái)判斷原內(nèi)容的價(jià)值,然后對(duì)終的排名進(jìn)行適當(dāng)?shù)囊龑?dǎo)。
目前,通過(guò)我們的實(shí)驗(yàn)和真實(shí)的在線數(shù)據(jù),“origin”算法已經(jīng)取得了一些進(jìn)展,解決了新聞信息領(lǐng)域的大部分問(wèn)題。當(dāng)然,還有更多原創(chuàng)性的問(wèn)題等著其他領(lǐng)域的“原點(diǎn)”去解決,我們走的很堅(jiān)定。
原創(chuàng)星火計(jì)劃。
我們一直致力于原創(chuàng)內(nèi)容的識(shí)別和排序算法的調(diào)整。然而,在當(dāng)前的互聯(lián)網(wǎng)環(huán)境下,快速識(shí)別和解決原始問(wèn)題確實(shí)面臨著巨大的挑戰(zhàn),如計(jì)算數(shù)據(jù)規(guī)模龐大、收集方法層出不窮、不同網(wǎng)站之間網(wǎng)站構(gòu)建方法和模板差異巨大、內(nèi)容提取復(fù)雜等。這些因素會(huì)影響原算法識(shí)別,甚至導(dǎo)致誤判。這時(shí)候,百度和站長(zhǎng)需要共同努力,維護(hù)互聯(lián)網(wǎng)的生態(tài)環(huán)境。站長(zhǎng)推薦原創(chuàng)內(nèi)容,搜索引擎對(duì)原創(chuàng)內(nèi)容進(jìn)行一定判斷后給予優(yōu)惠,共同推動(dòng)生態(tài)改善,鼓勵(lì)原創(chuàng)。這就是“原創(chuàng)星火計(jì)劃”,旨在快速解決當(dāng)前面臨的嚴(yán)重問(wèn)題。另外,站長(zhǎng)對(duì)原創(chuàng)內(nèi)容的推薦會(huì)應(yīng)用到“origin”算法中,關(guān)于網(wǎng)站建設(shè)服務(wù),幫助百度發(fā)現(xiàn)算法的不足,不斷改進(jìn),用更智能的識(shí)別算法自動(dòng)識(shí)別原創(chuàng)內(nèi)容。
二、百度原創(chuàng)保護(hù)的進(jìn)展原創(chuàng)星火計(jì)劃靠前期和原創(chuàng)算法已經(jīng)出了一段時(shí)間了。目前主要覆蓋一些大型新聞網(wǎng)站。目前,初的星火計(jì)劃已取得初步成效??壳半A段,在百度搜索結(jié)果中對(duì)部分重點(diǎn)原創(chuàng)新聞網(wǎng)站的原創(chuàng)內(nèi)容進(jìn)行了原創(chuàng)標(biāo)記和作者展示,排名和流量也得到合理提升。百度LEE也表示,原創(chuàng)算法也讓這些優(yōu)質(zhì)網(wǎng)站有了更好的收益。
1.對(duì)比原星火計(jì)劃推出前后的流量,原網(wǎng)址的流量明顯增加。
2.初的星火計(jì)劃啟動(dòng)后,初的網(wǎng)址流量明顯增加,并逐漸穩(wěn)定下來(lái)。
這是小范圍的數(shù)據(jù),我們來(lái)宏觀看看。2013年,中國(guó)低質(zhì)量網(wǎng)站泛濫,80%是從低質(zhì)量網(wǎng)站收集的,作弊網(wǎng)站泛濫。不良收集站占比高達(dá)40%,收集站、作弊站、垃圾不值錢站在整個(gè)互聯(lián)網(wǎng)資源環(huán)境中的比重越來(lái)越高,且有主導(dǎo)趨勢(shì),優(yōu)質(zhì)資源空間不斷減少。優(yōu)質(zhì)站長(zhǎng)受損,原創(chuàng)內(nèi)容大受阻礙。2014年作弊站和代收站占比35%,有所收斂,代收站下降16%。百度在原創(chuàng)的宣傳和保護(hù)上起到了很大的作用,但是無(wú)價(jià)值的站點(diǎn)越來(lái)越多,一定程度上也是原創(chuàng)造成的,后面會(huì)詳細(xì)說(shuō)明。
三、站長(zhǎng)對(duì)原創(chuàng)保護(hù)的誤解。
1.原創(chuàng)內(nèi)容不等于優(yōu)質(zhì)內(nèi)容。
網(wǎng)頁(yè)的主要內(nèi)容是網(wǎng)頁(yè)的價(jià)值。百度主要從以下幾個(gè)角度評(píng)價(jià)網(wǎng)頁(yè)內(nèi)容的質(zhì)量:內(nèi)容制作的成本;內(nèi)容是否有效、完整、豐富;是否原創(chuàng);信息是否真實(shí)有效;無(wú)論是權(quán)威還是投入更多的專業(yè)知識(shí)和經(jīng)驗(yàn);是否有作弊。對(duì)于頁(yè)面的主要內(nèi)容價(jià)值來(lái)說(shuō),“原創(chuàng)”這個(gè)詞并不是很突出。什么是高質(zhì)量?高質(zhì)量的內(nèi)容:內(nèi)容質(zhì)量好的網(wǎng)頁(yè),花費(fèi)大量的時(shí)間和精力進(jìn)行編輯,投入大量的經(jīng)驗(yàn)和專業(yè)知識(shí),內(nèi)容清晰、有效、完整、豐富。比如專業(yè)醫(yī)療網(wǎng)站發(fā)布的豐富的醫(yī)學(xué)話題頁(yè)面,資深工程師為徹底解決一個(gè)技術(shù)問(wèn)題而發(fā)表的專業(yè)文章,專業(yè)B2C網(wǎng)站上完整有效的商品購(gòu)買頁(yè)面,權(quán)威新聞?wù)驹瓌?chuàng)或編輯的熱點(diǎn)新聞報(bào)道,網(wǎng)友精心編輯的豐富百科詞條。
高質(zhì)量?jī)?nèi)容的定義沒(méi)有原創(chuàng)標(biāo)準(zhǔn)。原創(chuàng)只是對(duì)高質(zhì)量?jī)?nèi)容的簡(jiǎn)單陳述,或者說(shuō)是更高水平的高質(zhì)量?jī)?nèi)容。較好你的內(nèi)容質(zhì)量高,原創(chuàng),反過(guò)來(lái)就尷尬了。原創(chuàng)但是質(zhì)量低。這是百度保護(hù)原創(chuàng)以來(lái),很多站長(zhǎng)都出現(xiàn)過(guò)的問(wèn)題。他們認(rèn)為原創(chuàng)內(nèi)容等于優(yōu)質(zhì)內(nèi)容,卻不知道網(wǎng)站的原創(chuàng)性在提高,網(wǎng)站的價(jià)值卻在下降。如前所述,2014年無(wú)價(jià)值網(wǎng)站越來(lái)越多,其中不乏站長(zhǎng)對(duì)原創(chuàng)內(nèi)容的誤解,因?yàn)椴皇敲總€(gè)人都能創(chuàng)作出高質(zhì)量的原創(chuàng)內(nèi)容。原創(chuàng)性只是高質(zhì)量web內(nèi)容的一個(gè)不必要的特征,在一定程度上可以反映web內(nèi)容的稀缺性,但原創(chuàng)性不一定是稀缺的,原創(chuàng)性不能代表高質(zhì)量?jī)?nèi)容的所有特征,這一點(diǎn)必須理解。
2.不包括原創(chuàng)內(nèi)容。
知道網(wǎng)站的更新內(nèi)容是原創(chuàng),必須收錄,這是錯(cuò)誤的,也是非常錯(cuò)誤的??傆泻芏嗳嗽诒г篂槭裁次业脑瓌?chuàng)文章沒(méi)有收錄。有些人抱怨為什么別人抄襲我的,并把它包括在內(nèi)??壳皞€(gè)問(wèn)題其實(shí)很簡(jiǎn)單。為什么要包括你的?這個(gè)老東西你自己寫的,排版混亂,要裝半天。看完就知道說(shuō)什么了。這個(gè)原創(chuàng)對(duì)于搜索引擎和用戶有什么價(jià)值?思想問(wèn)題我沒(méi)解決,但是我自己陶醉了,覺(jué)得自己的文采多好。而且跟你整個(gè)網(wǎng)站的權(quán)重、結(jié)構(gòu)、歷史表現(xiàn)、內(nèi)外鏈都有關(guān)系。
第二個(gè)問(wèn)題是,為什么別人抄我的就包括了?也就是別人把你的內(nèi)容放到自己的網(wǎng)頁(yè)上之后,這個(gè)網(wǎng)頁(yè)比你的網(wǎng)頁(yè)多了你沒(méi)有的東西,也就是增加了附加值??赡芩木W(wǎng)站可信度比你高,結(jié)構(gòu)更好,彈出窗口更少,對(duì)用戶可讀性更好。內(nèi)容質(zhì)量高不高不是由原創(chuàng)性決定的,搜索引擎收錄與否也不是由原創(chuàng)性決定的。至于百度為什么不包括你的網(wǎng)站,我們需要從多方面去思考,不僅僅是原創(chuàng)與否。如果真要說(shuō)原話和收錄的關(guān)系,那我只能說(shuō)原話可能重復(fù)率低,僅此而已,但這不是百度收錄你的原因。