单词贡献度[2], 下面对它们做一下简单介绍,具体请参考文献[2]。 1.1 文档频(DF) 文档频(document frequency, DF)是最易理解的 一种无监督特征选择方法。某个词的文档频是在整 个文本集中出现该词的文本数。文档频的理论
基于8个网页-相关网页
单词贡献度[2], 下面对它们做一下简单介绍,具体请参考文献[2]。 1.1 文档频(DF) 文档频(document frequency, DF)是最易理解的 一种无监督特征选择方法。某个词的文档频是在整 个文本集中出现该词的文本数。文档频的理论
基于2个网页-相关网页
But there are exist some defects. It's unreliable for low-document frequency,and it didn't show the pertinence for term and classification.
但也存在着缺陷和不足,它对低文档频的特征项不可靠,而且不能说明词条和类别的相关性。
参考来源 - 文本分类中的关键技术研究·2,447,543篇论文数据,部分数据来源于NoteExpress
该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。
The comprehensive method firstly used the new document frequency to select features to filter out some terms, and then employed the attribute reduction algorithm to eliminate redundancy.
针对文本分类中信息增益降维方法的不足,提出了一种基于相对文档频的平衡信息增益(RDFBIG)降维方法。
To overcome the shortage of information gain in text categorization, this paper proposes a method of feature reduction based on the relative document frequency balance information gain (RDFBIG).
应用推荐