计算机应用的基础知识:文本表示综述及其改进

计算机应用的基础知识:文本表示综述及其改进,第1张

计算机应用的基础知识:文本表示综述及其改进,第2张

文本表示及其改进综述

主要内容:
现阶段文中表述的主要技术
现有工作对我们的启示
现有改进工作介绍
我们的改进(可行性?)

如何用计算机解决文本分类问题?
中文文本是由汉字和标点符号组成的字符串。词组成词,词组成短语,从而形成句、段、节、章、章等结构。
自然语言理解
借助统计学这一强大工具
目前文本表示的主要技术
vector 空 model
特征项的粒度选择
预处理去除停用词
特征选择[ [/k0/]向量空间模型的概念]Salton
文档
特征项(Term)
特征项权重
vector /[/k0
表达能力差,不能独立完整地表达语义信息。
单词
单词是可以独立使用的最小语言单位。
字数超过10万,面临复杂的分词问题。

术语的粒度(2)
短语特征
出现频率较低,表达能力强于单词
概念特征
“爸爸”=“父亲”在自动摘要领域很有帮助
N元组特征
“中国人民银行”
分词程序统计强制
新粒度?
戴维·刘易斯的结论:
作为特征,单个单词比短语和词簇要好。
短语的低频率和高同义性极大地影响了它的表现;词簇效果不好的主要原因是训练集不够大。
预处理去掉停用词
虚词,助词频繁出现,但对意思的表达贡献不大。
比如哲,乐,郭,郭。

统计词频时过滤掉这些停用词。

停字没用吗?
考证《红楼梦》作者李显平1987年
用了47个虚词(之,之,或,易)是,是,是,是,是。可以,卞,但是,前80回是曹雪芹根据《石头记》的故事写的,中间插了一面浪漫月亮的宝镜,而且
后40回是曹雪芹的亲友编的。宝黛的故事是一个人写的,贾府没落的场景应该是另一个人写的。
特征选择
目标
具有强表达
高频
高区分度
合理的特征评价函数
消除了特征间的干扰,提高了分类精度


特征选择(2)
文档频率(DF)
根据预设的阈值,去除那些文档频率极低和极高的特征项。
合理的门槛往往很难获得!
相互信息


频差大的特征项的互信息大小没有可比性!(即低频特征具有较高的MI)
同时,当训练集中不同类别差异较大时,低频词也具有较高的MI。
实践证明,互信息法是最差的特征选择方法!

选择特征(3)
χ2统计量:用于衡量特征项W与类别c之间的独立性。


区分低频特征项的效果也不好!
信息增益(IG):这个特征项是整个分类提供的信息量。

同等对待长文档和短文档。频率信息。
功能选择的性能比较:
功能项权重计算
布尔权重

词频权重

TFIDF权重(为什么?)


权重计算(2)
TFC权重:归一化TFIDF


LTC权重:降低TF的作用(最常用)(不分长短文)


熵权:(效果)

特征重构
LSI:(潜在语义索引)
一词多义现象使得文本特征向量中的不同成分相互关联。
LSI方法使用矩阵奇异值分解(SVD),将特征项空中的文本矩阵转化为概念空中的正交矩阵,概念空中的特征相互独立。
奇异值分解过程中信息损失太大,所以在自动文本分类中性能往往很差!【/br/】潜在问题:【/br/】长文档(黄)【/br/】将文档视为文档之间的向量空,实践结果表明不适合长文档。长文档内容丰富,需要规范文档长度。解决的办法是把长文档分开。(你怎么定义“长”?)
特征项独立性假设
如果我们把词看作特征项,那么词与词之间的独立性就是说一个词的上下文信息对这个词的信息没有影响!这显然违背了人们的常识。

思路一:特征项的顺序关系(Bu董波)
中文文本是用特征项出现的频率和它们之间的相互顺序来表示的。考虑到顺序信息,需要使用方向指针,使得文本成为复杂的图结构。由于很难定义一个合理的距离函数来描述由图结构表示的两个文本是否相似,因此,我们不得不抛弃序列信息。
我们要尽可能的考虑特征项之间的顺序关系。
思路启发二:上下文信息的贡献(松露)
引入信息增益法确定上下文各个位置的信息量后,构造上下文位置的信息函数,最终通过多项式积分确定85%信息的上下文边界,即汉语核心词的最近距离[-8,+]
应尽可能考虑特征项的上下文贡献。
思路启发三:分类器集成
提出分类器集成的思路:
不同的分类算法往往适用于不同的具体问题,没有分类算法。
希望不同的方法能融合在一起,尽量减少误差。

分类器集成(2)
孔多塞陪审团定律(1785)
对于二分法问题,假设每个分类器的错误率小于0.5,那么通过投票得到的一组独立分类器的错误率将小于每个单个分类器的错误率。

设p = 0.3,l = 3,结果只有0.216
。设p = 0.3,l = 5,结果只有0.163
...
设p = 0.3,l = 21,结果只有0.026。

分类器集成(3)
前提条件是证明不同分类器具有独立性(实际问题中经常转换成不同分类器的错误具有独立性)。难!
其实分类器的准确性和独立性是有折中的:分类器越准确,独立性就会越差!
启发:投票多重判别有助于提高分类准确率,(召回率??然而,分类器集成方法的效果并不明显。考虑到分类器用于将文档的不同部分区分成块,不同块的误差彼此独立是可接受的假设。

介绍了考虑特征项上下文的分类算法:
RIPPER算法(Cohen 1995)和sleeping-experts算法(Freund 1997)是最重要的算法。
两种算法的共同优点是:
分类算法是线性或次线性的;
文本的直接表征:表现为有序特征链(与VSM表征完全不同);
特征项的上下文信息影响分类结果;
在分类器的训练过程中同时生成上下文,不需要额外的上下文生成算法。
(对于短文本分类,词频没有统计信息,更适合规则判定)
RIPPER算法:
RIPPER算法是一种松弛规则匹配算法,上下文是不同的规则。
规则集是通过训练获得的
规则集可以看作是几个规则的析取(or)表达式
每个规则是几个特征的合取(and)表达式
每个规则的特征之间没有顺序,每个特征可以出现在文档中的任何地方

RIPPER算法的基本思想:
训练过程分为两部分:
根据贪婪原理,采用启发式方法,借助信息增益构造初始规则集;
通过优化过程修剪规则集,提高规则集的准确性。
分类流程:
满足某个规则的单据被认为属于该规则。
开膛手算法的问题
训练过程复杂(启发式算法);
新的文本表示方法忽略了测试文档中特征项的频率信息;
不考虑特征项在文档中的位置,通过多重判别是无法提高分类的准确率的。
如何调整规则顺序?
sleeping-experts算法
sleeping-experts是一种严格的规则匹配算法,上下文称为稀疏短语。
定义:n个单词的有序链表,这n个单词不需要连续出现,所以称为稀疏短语。
每一个稀疏短语都是一个专家,如果这个稀疏短语被满足,就说明专家已经做出了决定。
sleeping-experts算法的基本思想
在同时满意的n位专家中,并不只有简单的投票方式,而是利用对不同专家效果的估计来调整他们的加权系数。
在训练过程中,依次迭代生成稀疏短语,如果稀疏短语在该类中起到积极作用,则扩大其权重系数;反之,降低其权重系数。
沉睡的问题——专家算法
上下文的定义过于严格?影响召回率?

算法的简化?不需要特征选择,直接生成稀疏矩阵,使得专家数量极其庞大!
分类结果
我们的想法:
文章的倾向性判断。

改进了基于上下文(相对位置)的分类方法。
文章倾向判断
文章以核心词为界分块,重复判断。
准确率提高,(召回率是平均召回率?)
如何选择核心词?
表现力强,高频低辨(实词?)
方法:TFDF原理

参数调整:

每个“块”
的分类方法是基于规则(更快)
并且规则是基于中高频词构建的。
宽松的规则保证了一定的召回率;
多做判断,提高准确率。
SVM(更准确)

伊拉克战争的倾向
手动建立训练集。

希望SVM直接分类,分类结果基于规则和分块进行比较。
基于上下文的分类方法
用特征的组合
代替原来的特征,可以体现特征的顺序。
组合特征出现的频率会大大降低,不再具有统计学意义,所以考虑一个组合特征作为规则。[

采用简单的投票方法,不考虑复杂的加权策略。


位律师回复
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » 计算机应用的基础知识:文本表示综述及其改进

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情