搜索引擎優(yōu)化算法SEO的個人認識
2014-07-03 22:34:46
大家好, 我是 ,呵呵,第一次在在這里來寫東西,感覺不太好意思啊,我是SEO初學者,在網(wǎng)上看過幾篇文章,也看過兩本書,對SEO來說,沒有什么很深的體會,只是單純就我所知道的某一點來寫寫,大蝦們別笑啊!
我現(xiàn)在要講的是:網(wǎng)頁查重算法,也就是搜索引擎是怎么檢查兩個網(wǎng)頁的相似性的?這應該是大家應該比較關心的問題吧,因為這有助于讓你的偽原創(chuàng)更像一個原創(chuàng)
首先我跟大家講有名的IMATCH算法。
我們在比較兩件事物的相似性時,往往都會拿能均衡的反應這事物本質的東西來比較,就像比賽時,要去除一個最高分和最低分,然后再變算總分一樣~~
IMATCH算法基于的依據(jù)是,在文擋中,特別高頻的詞和特別低頻的詞無法反應這一個文擋的真實內容,所以在比較之前,先將文擋中高頻詞和低頻詞去掉
我們來看一個例子:
這里有兩段網(wǎng)頁文字:
1.中國足球隊在米盧的率領下首次獲得世界杯決賽階段的比賽資格,新浪體育播報 。
2.米盧率領中國足球隊員首次殺入世界杯決賽階段,搜狐體育播報。
文檔中去掉高頻:中國,在,的,獲得,比賽,資格,新浪,體育,播報去掉低頻:米盧則剩下中頻詞有:足球隊,率領,首次,世界杯,決賽,階段文檔中去掉高頻:中國,搜狐,體育,播報去掉低頻:米盧,殺入則剩下中頻詞有:率領,足球隊,首次,世界杯,決賽 ,階段看到了吧?剩下的,兩者是一模一樣 這就是相似性的存在呵呵,其實這個例子很早就有過的。。
綜上所述:搜索引擎要檢測相似性,主要就是要分詞和詞頻的比較!!不知道大家是否都清楚了?呵呵,下次再講一個經(jīng)典算法:Shingle算法。
就到這里吧。祝大家的偽原創(chuàng)越來越好! SEO學習還任重道遠啊!一起努力