我要分享

搜索引擎優化算法SEO的個人認識

2014-07-03 22:34:46

　　大家好，我是 ,呵呵，第一次在在這里來寫東西，感覺不太好意思啊，我是SEO初學者，在網上看過幾篇文章，也看過兩本書，對SEO來說，沒有什么很深的體會，只是單純就我所知道的某一點來寫寫，大蝦們別笑啊!

　　我現在要講的是：網頁查重算法，也就是搜索引擎是怎么檢查兩個網頁的相似性的?這應該是大家應該比較關心的問題吧，因為這有助于讓你的偽原創更像一個原創

　　首先我跟大家講有名的IMATCH算法。

　　我們在比較兩件事物的相似性時，往往都會拿能均衡的反應這事物本質的東西來比較，就像比賽時，要去除一個最高分和最低分，然后再變算總分一樣~~

　　IMATCH算法基于的依據是，在文擋中，特別高頻的詞和特別低頻的詞無法反應這一個文擋的真實內容，所以在比較之前，先將文擋中高頻詞和低頻詞去掉

　　我們來看一個例子：

　　這里有兩段網頁文字：

　　1.中國足球隊在米盧的率領下首次獲得世界杯決賽階段的比賽資格，新浪體育播報。

　　2.米盧率領中國足球隊員首次殺入世界杯決賽階段，搜狐體育播報。

　　文檔中去掉高頻：中國，在，的，獲得，比賽，資格，新浪，體育，播報去掉低頻：米盧則剩下中頻詞有：足球隊，率領，首次，世界杯，決賽，階段文檔中去掉高頻：中國，搜狐，體育，播報去掉低頻：米盧，殺入則剩下中頻詞有：率領，足球隊，首次，世界杯，決賽，階段看到了吧?剩下的，兩者是一模一樣這就是相似性的存在呵呵，其實這個例子很早就有過的。。

　　綜上所述：搜索引擎要檢測相似性，主要就是要分詞和詞頻的比較!!不知道大家是否都清楚了?呵呵，下次再講一個經典算法：Shingle算法。

　　就到這里吧。祝大家的偽原創越來越好! SEO學習還任重道遠啊!一起努力

搜索引擎優化算法SEO的個人認識

客服QQ：99164055

搜索引擎優化算法SEO的個人認識

2014-07-03 22:34:46