并将文档编号(DocId)、在文档命中的次数(NHits),以及命中的位置列表(HitList)作为倒排表中的记录表中的一个记录。
基于46个网页-相关网页
该算 法通过对三元组<文档标识(DocID),段标识(ChunklD),指纹(Fingerprintp进行排序,避 免了对所有网页作两两比较,使算法复杂度有所降低。
基于16个网页-相关网页
...中。Repository获得了每个网页的完全Html代码后,对其压缩后的网页及URL进行分析,记录下网页长度、URL、URL长度和网页内容,并赋予每个网页一个文档号(docID),以便当系统出现故障的时候,可以及时完整地进行网页的数据恢复。
基于4个网页-相关网页
位置(pos)偏移量信息 文档(docId)偏移量的信息 上面的三部分信息都储存后,我们就可以快速的解析出来。
基于1个网页-相关网页