【i-match】的意思_什么是i-match

算法简介

网页查重算法是搜索引擎判断文章原创的一个重要手段。充分了解其算法有助于我们更好地使我们的文章看上去是“原创”的。其中I-MATCH算法[1]就是其中的一种。

算法的框架

1. 获取文档（或者是主体内容）

这个可以理解为直接抓取整个HTML页面，除了用户所见的文字以外，还有大量HTML格式标签、JS等程序无法用于排名的内容。

2. 将文档分解成token流，移除格式化的标签

这个就是从HTML文件中提取出去除标签、程序的可用用于排名处理的网页文字内容。如下：　<h2 class="post-title">　武汉seo:关于SEO平衡性的一腔犬吠</a></h2>

除去HTML代码后就只有这么一行:　武汉seo:关于SEO平衡性的一腔犬吠

当然也可能会提取一下如METAT、ALT，链接锚文字等文字

3. 使用term的阈值（idf），保留有意义的tokens

这个的意思就是去除掉上述文字的一些高频词，如"的"，“地”，“得”之类的助词，“阿”、“哈”，“呀”的感吧词，还有“从在”“关于”“却”之类的副词和低频词，从而保留一些中频有意义的词。

4. 插入tokens到升序排列的排序树中　将这些标签排入到一个词组的从低到高的频率,放入SE的排列树中。

5. 对 每一个token，相加得到一个hash值，直到文档结束为止　HASH值是根据文件的内容的数据通过逻辑运算得到的数值，也就是上述标签tokenS的值。

6. 将元组（doc_id,SHA hash) 插入到某一词典中，如果词典有冲突，这两个文档相似。

举例：这里有两段网页文字：　1.中国足球队在米卢的率领下首次获得世界杯决赛阶段的比赛资格，新浪体育播报。　2.米卢率领中国足球队员首次杀入世界杯决赛阶段，搜狐体育播报。　文档(一)中　去掉高频：中国，在，的，获得，比赛，资格，新浪，体育，播报　去掉低频：米卢　则剩下中频词有：足球队，率领，首次，世界杯，决赛，阶段　文档(二)中　去掉高频：中国，搜狐，体育，播报　去掉低频：米卢，杀入　则剩下中频词有：率领，足球队，首次，世界杯，决赛，阶段　两者是一模一样，这就是相似性的存在。

I-Match 百科内容来自于：

算法简介

算法的框架

算法举例

修改单词