...主题的聚焦爬虫研究 关键词:聚焦爬虫;Heritrix;BKDRHash算法;HTMLParser;搜索引擎 [gap=1025]Key words:focused crawler;Heritrix;BKDRHash algorithm;HTMLParser;search engine ..
基于30个网页-相关网页
增量型爬虫(incremental crawler):持续不断抓取,对抓到的网页定期更新。垂直型爬虫(focused crawler):抓取阶段识别网页是否与主题相关,判断是否抓取。2.3 爬虫抓取策略 目的:优先选择重要网页进行抓取。
基于8个网页-相关网页
focused-crawler 定题爬虫
machine focused crawler 机械主题爬虫
chemistry focused crawler 化学主题爬虫
Research on Focused Crawler Technology 聚焦爬虫技术研究
Focused Website Crawler 网站聚焦爬虫
chemistry focused web crawler 化学主题网络爬虫
Research of Focused Website Crawler 网站聚焦爬虫研究
Initial performance results show that this rule-based Web-crawling approach uses linkage statistics among topics to improve a baseline focused crawler's harvest rate and coverage.
这种基于类间规则的聚焦爬行方法借助baseline聚焦爬虫的架构,应用朴素的贝叶斯分类器并利用主题团间链接的统计关系构造规则找到在一定链接距离内的“未来回报”页面,并通过实验对该算法的性能进行分析、评价,证明其对聚焦爬虫的爬行收获率和覆盖率有很好的改善。
参考来源 - 聚焦爬行中网页爬行算法的改进—《电脑知识与技术》—2008年第35期—龙源期刊网In addition,an ideal focused crawler retrieves the maximal set of relevant pages while simultaneously traversing the minimal number of irrelevant pages on the Web.
而一个理想的主题爬虫需要最大限度的爬行与预定主题最相关的网页,并最小限度的爬行不相关的网页。
参考来源 - 面向垂直搜索引擎的主题爬行技术研究Currently, accuracy of Chinese Word Segmentation and Correlation Prediction are still to be improved, search strategy of Focused Crawler has yet to be further improved to enhance search engine coverage and efficiency.
目前,垂直搜索引擎的中文分词和主题预测有待进一步提高精度,网络蜘蛛的搜索策略也有待进一步改进以提高搜索引擎的覆盖率和效率。
参考来源 - 垂直搜索引擎若干关键技术的研究·2,447,543篇论文数据,部分数据来源于NoteExpress
以上来源于: WordNet
This dissertation analyses and designs a collaborative focused crawler model.
分析和设计了一个合作式主题爬行器。
Finally we used this new algorithm to design and implement a focused crawler prototype system.
最后我们利用该改进算法设计并实现了一个主题爬虫原型系统。
Simplifying the vector representation of documents and topic levels, a prototype of the focused crawler is designed and implemented.
对文档与主题层的向量表示进行简化,设计与实现了一个主题搜索机器人原型。
应用推荐