概念 文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 文本挖掘种类 1.基于单文档的数据挖掘 2.基于文档集的数据挖掘 文本挖掘方法 1.文本分类 文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段。 2.文本聚类 文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。 3.信息抽取 4.摘要 5.压缩 其中,文本分类和聚类是两种最重要最基本的挖掘功能。 挖掘工具 1.IBM DB2 intelligent Miner 2.SAS text miner 3.SPSS Text Mining 4.DMC TextFilter(纯文本抽出通用程序库) 应用 文本挖掘传统商业方面的应用主要有,企业竞争情报、CRM、电子商务网站、搜索引擎,现在已扩展到医疗、保险和咨询行业。