文档的概念是指数据库内容的组织形式。一般地说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。在倒排文档中,记录的特征标识作为排列依据,其后列出含有此标识的记录号,使用倒排文档可以大大提高检索的效率。
为应对这个挑战,在搜索引擎系统中引入了分布式计算和倒排文档全文检索技术。
In order to deal with this challenge, the technology of distributed computing and inverted document full-text retrieval were introduced into the search engine system.
尽管如此,用于排序结果的数学模型通常是常用的 词频/倒排文档频率模型的变体,而对于这种模型,已有很好的研究基础。
Still, the mathematical models used to rank results are usually some variation of the common term-frequency/inversed document frequency model, which is well-mapped territory.
从技术的角度来看,倒排索引用于存储文档中出现的关键字,并且支持搜索,它是一种广为熟悉并且精确描述的数据结构。
From a technical perspective, the inverted index, used to store keywords that appear in documents and enable searches, is a well-known and well-described data structure.
应用推荐