基于统计的特征提取方法: 1、TF-IDF: 单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内 容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力 2. 互信息(Mutual Information): 互信息是计算语言学模型分析的常用方法,它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。 3. 期望交叉熵(Expected Cross Entropy) 交叉嫡 ,也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距 离,词汇w的交叉嫡越大,对文本主题类分布的影响也越大。 4. x2统计量方法: 采用x2估计特征选择算法的准确率在实验中最高,其分类效果受训练集影响较小,比较稳定