1. 获取文档(或者是主体内容)
这个可以理解为直接抓取整个HTML页面,除了用户所见的文字以外,还有大量HTML格式标签、JS等程序无法用于排名的内容。
2. 将文档分解成token流,移除格式化的标签
这个就是从HTML文件中提取出去除标签、程序的可用用于排名处理的网页文字内容。如下: <h2 class="post-title"> 武汉seo:关于SEO平衡性的一腔犬吠</a></h2>
除去HTML代码后就只有这么一行: 武汉seo:关于SEO平衡性的一腔犬吠
当然也可能会提取一下如METAT、ALT,链接锚文字等文字
3. 使用term的阈值(idf),保留有意义的tokens
这个的意思就是去除掉上述文字的一些高频词,如"的",“地”,“得”之类的助词,“阿”、“哈”,“呀”的感吧词,还有“从在”“关于”“却”之类的副词和低频词,从而保留一些中频有意义的词。
4. 插入tokens到升序排列的排序树中 将这些标签排入到一个词组的从低到高的频率,放入SE的排列树中。
5. 对
每一个token,相加得到一个hash值,直到文档结束为止 HASH值是根据文件的内容的数据通过逻辑运算得到的数值,也就是上述标签tokenS的值。
6. 将元组(doc_id,SHA hash) 插入到某一词典中,如果词典有冲突,这两个文档相似。