I-Match 百科内容来自于: 百度百科

算法简介

网页查重算法是搜索引擎判断文章原创的一个重要手段。充分了解其算法有助于我们更好地使我们的文章看上去是“原创”的。其中I-MATCH算法[1]就是其中的一种。

算法的框架

1. 获取文档(或者是主体内容)
这个可以理解为直接抓取整个HTML页面,除了用户所见的文字以外,还有大量HTML格式标签、JS等程序无法用于排名的内容。
2. 将文档分解成token流,移除格式化的标签
这个就是从HTML文件中提取出去除标签、程序的可用用于排名处理的网页文字内容。如下: <h2 class="post-title"> 武汉seo:关于SEO平衡性的一腔犬吠</a></h2>
除去HTML代码后就只有这么一行: 武汉seo:关于SEO平衡性的一腔犬吠
当然也可能会提取一下如METAT、ALT,链接锚文字等文字
3. 使用term的阈值(idf),保留有意义的tokens
这个的意思就是去除掉上述文字的一些高频词,如"的",“地”,“得”之类的助词,“阿”、“哈”,“呀”的感吧词,还有“从在”“关于”“却”之类的副词和低频词,从而保留一些中频有意义的词。
4. 插入tokens到升序排列的排序树中 将这些标签排入到一个词组的从低到高的频率,放入SE的排列树中。
5. 每一个token,相加得到一个hash值,直到文档结束为止 HASH值是根据文件的内容的数据通过逻辑运算得到的数值,也就是上述标签tokenS的值。
6. 将元组(doc_id,SHA hash) 插入到某一词典中,如果词典有冲突,这两个文档相似。

算法举例

举例:这里有两段网页文字: 1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格,新浪体育播报 。 2.米卢率领中国足球队员首次杀入世界杯决赛阶段,搜狐体育播报。 文档(一)中 去掉高频:中国,在,的,获得,比赛,资格,新浪,体育,播报 去掉低频:米卢 则剩下中频词有:足球队,率领,首次,世界杯,决赛,阶段 文档(二)中 去掉高频:中国,搜狐,体育,播报 去掉低频:米卢,杀入 则剩下中频词有:率领,足球队,首次,世界杯,决赛 ,阶段 两者是一模一样,这就是相似性的存在。
$firstVoiceSent
- 来自原声例句
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定