网络爬虫分为通用爬虫 (General Purpose WebCrawler)和面向主题爬虫(Topical Crawler),网络舆情采集一般是面向行 业领域采集,往往使用面向主题爬虫。
基于16个网页-相关网页
The topic for Topical Crawler is defined with the need, generally, for the search engine, the topic is descriped by categories for webpages in Websites; also, it can be customized by users to build some individual crawlers.
主题爬虫下载的网页资源的主题类别是根据需求来定义的,一般应用于主题搜索引擎的主题类别是根据常用的分类来描述的,同样,也可以根据用户的需求来定制,如根据用户感兴趣的内容可以定制个性化的主题爬虫。
参考来源 - 面向金融信息的主题爬虫研究与应用We use crawler’ s application-search engine to evaluate the performance of jeffheaton’ s spider and the topical crawler.
文章使用网络机器人的一个应用——搜索引擎来检验jeffheaton的spider及主题crawler的性能。
参考来源 - 主题(topical)crawler及其应用——主题搜索引擎·2,447,543篇论文数据,部分数据来源于NoteExpress
应用推荐