文本向量化的特征提取与降维方法

首页 · 国外客户开发 ·操作流程 ·常见问题 ·邮件群发软件 ·与其他软件对比· 数据挖掘基础知识 · 联系我们

在线客服
QQ :
QQ :

外贸营销服务方案

主动搜索国外买家，轻松搞定，低成本、高效率,给外贸企业全球客户的联系方式，带来B2B上找不到的大客户和高利润　

联系方式

客服电话:027-68766423
QQ

:3057296586,3057213126

　

文本向量化的特征提取与降维方法

   :

   文本的表示及其特征项的选取是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本

信息。将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息，即对文本进行科学的抽象，建立它的数

学模型，用以描述和代替文本。使计算机能够通过对这种模型的计算和操作来实现对文本的识别。

   经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系

统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易

懂。当文档被表示为文档空间的向量，就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似

性度量方式是余弦距离。文本挖掘系统采用向量空间模型,用特征词条(T1 ,T2 ,…Tn) 及其权值Wi 代表目标信息,在进行信

息匹配时,使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提

取算法的优劣将直接影响到系统的运行效果。
　

基于统计的特征提取方法:

1、TF-IDF：
单词权重最为有效的实现方法就是TF*IDF, 它是由Salton在1988 年提出的。其中TF 称为词频, 用于计算该词描述文档内

容的能力; IDF 称为反文档频率, 用于计算该词区分文档的能力

2. 互信息(Mutual Information)：

互信息是计算语言学模型分析的常用方法，它度量两个对象之间的相互性。在过滤问题中用于度量特征对于主题的区分度。

3. 期望交叉熵(Expected Cross Entropy)

交叉嫡，也称KL距离。它反映了文本主题类的概率分布和在出现了某特定词汇的条件下文本主题类的概率分布之间的距

离，词汇w的交叉嫡越大，对文本主题类分布的影响也越大。

4. x2统计量方法:

采用x2估计特征选择算法的准确率在实验中最高，其分类效果受训练集影响较小，比较稳定
　

关于本站 | 联系我们 | 服务体系 | 网站地图