对于特征词t,各种选择标准的含义如下: 1.文档频数(Document Frequency): 即是特征t在文本集中出现的文档数。它是最简单的评估函数,其值为 训练集合中该单词发生的文本数。
基于42个网页-相关网页
逆文档频数 IDFi
For the peculiarity of the two-category classification problem,improvement on traditional feature-selection approaches can be made. Based on the idea of "contribution difference",improvement on two traditional feature selection approaches,i. e,document frequency and mutual information is made.
针对垃圾邮件过滤问题的特殊性,基于“差分贡献”的思想对文档频数和互信息量这两种传统的特征选择方法进行了改进,设计了新的垃圾邮件过滤特征选择方法。
参考来源 - 基于差分贡献的垃圾邮件过滤特征选择方法 in C·2,447,543篇论文数据,部分数据来源于NoteExpress
应用推荐