而其工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。累积式抓取是指从某一个时间点开端,通过遍历的方法抓取系统所能容许存储和处理的所有网页。
基于8个网页-相关网页
This thesis makes an intensive study of the three stages of incremental crawler for new pages: incremental crawling web pages’trees, the content pages’groups and the pruning for web pages’trees.
本文针对新网页增量采集过程中的三大任务,即增量采集网页树、主题团网页采集和网页树剪枝进行了深入的研究,并实现了一个增量采集新网页的系统。
参考来源 - 网页增量式采集技术研究The main theory of incremental crawling techniques is the evolution of web pages and the optimal scheduling strategy based on page evolution.
增量搜集技术的核心理论依据是网页的变化规律和以此为基础的最优化调度策略。
参考来源 - 面向论坛页面的增量搜集技术研究·2,447,543篇论文数据,部分数据来源于NoteExpress
应用推荐