And then, this paper introduces and analyzes relative characters of web collection technology.
然后,介绍并分析了网页采集技术的相关概念。
参考来源 - 基于网格的大规模网页采集技术研究This thesis makes an intensive study of the three stages of incremental crawler for new pages: incremental crawling web pages’trees, the content pages’groups and the pruning for web pages’trees.
本文针对新网页增量采集过程中的三大任务,即增量采集网页树、主题团网页采集和网页树剪枝进行了深入的研究,并实现了一个增量采集新网页的系统。
参考来源 - 网页增量式采集技术研究·2,447,543篇论文数据,部分数据来源于NoteExpress
在技术实现中,通过与网页采集程序结合,对HTML文档进行预处理,提取出主题内容,提高了检索效率和查准率。
Second, because the method is based on HTML specification and extracted the contents and structure of web pages with the same source, it is of high scalability.
这就需要采用有效的采集方法以减少采集网页的杂乱、重复等情况的发生。
This requires effective collection method used to reduce the collected page clutter and duplication.
论文陈述了搜索引擎的基本工作流程,讨论了网页信息采集技术、网页存储器与分析索引器技术。
This paper presents the search engine workflow, and discusses the webpage information gathering technique, webpage memorizer and analysis index technique.
应用推荐