文本挖掘 百科内容来自于: 百度百科

图书信息

书 名: 文本挖掘
作 者:费尔德曼
出版时间: 2009年08月
ISBN: 9787115205353
开本: 16开
定价: 69元

内容简介

《文本挖掘(英文版)》是一部文本挖掘领域名著,作者为世界知名的权威学者。书中涵盖了核心文本挖掘操作、文本挖掘预处理技术、分类、聚类、信息提取、信息提取的概率模型、预处理应用、可视化方法、链接分析、文本挖掘应用等内容,很好地结合了文本挖掘的理论和实践。《文本挖掘(英文版)》非常适合文本挖掘、信息检索领域的研究人员和实践者阅读,也适合作为高等院校计算机及相关专业研究生的数据挖掘和知识发现等课程的教材。

作者简介

Ronen FeIdmarl,机器学习、数据挖掘和非结构化数据管理的先驱人物。以色列Bar一liarl大学数学与计算机科学系高级讲师、数据挖掘实验室主任,Clearforest公司(主要为企业和政府机构开发下一代文本挖掘应用)合作创始人、董事长,现在还是纽约大学斯特恩商学院的副教授。
James Sanger风险投资家,商业数据解决方案、因特网应用和IT安全产品领域公认的行业专家。他于1982年与人合伙创立了ABS Vetllures公司。此前,他是DB Capital纽约公司的常务董事他本科毕业于宾夕法尼亚大学,研究生就读于牛津大学和利物浦大学他是IEEE和美国人工智能协会(AAAI)会员。

文本挖掘工具

DMC Text Filter是HYFsoft推出的纯文本抽出通用程序库,DMC Text Filter可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。
DMC Text Filter采用了先进的多语言、多平台、多线程的设计理念,支持多国语言(英语,中文简体,中文繁体,日本语,韩国语),多种操作系统(Windows,Solaris,Linux,IBM AIX,Macintosh,HP-UNIX),多种文字集合代码(GBK,GB18030,Big5,ISO-8859-1,KS X 1001,Shift_JIS,WINDOWS31J,EUC-JP,ISO-10646-UCS-2,ISO-10646-UCS-4,UTF-16,UTF-8等)。提供了多种形式的API功能接口(文件格式识别函数,文本抽出函数,文件属性抽出函数,页抽出函数,设定User Password的PDF文件的文本抽出函数等),便于用户方便使用。用户可以十分便利的将本产品组装到自己的应用程序中,进行二次开发。通过调用本产品的提供的API功能接口,实现从多种文档格式的数据中快速抽出纯文本数据。
$firstVoiceSent
- 来自原声例句
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定
小调查
请问您想要如何调整此模块?

感谢您的反馈,我们会尽快进行适当修改!
进来说说原因吧 确定