极性分类——网络舆情正负面信息识别的方法.docx
上传人:sy****28 上传时间:2024-09-14 格式:DOCX 页数:4 大小:41KB 金币:16 举报 版权申诉
预览加载中,请您耐心等待几秒...

极性分类——网络舆情正负面信息识别的方法.docx

极性分类——网络舆情正负面信息识别的方法.docx

预览

在线预览结束,喜欢就下载吧,查找使用更方便

16 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

极性分类——网络舆情正负面信息识别的方法AnnieQi优捷信达科技研究员随着Web2.0时代的到来,以及微博、SNS媒体的兴起,互联网上个人发布的信息迅速增多,企业和政府前所未有的与用户和公众如此之近。把握企业和政府前途的决策之匙不仅握在管理者决策者手中,也同时握在用户和公众手中。如何从互联网获取的海量信息中提取用户或者公众的情感倾向、以及针对某事物的正负面评论,可以为企业把握用户的消费态度,为政府把脉公众的情绪提供重要的依据,促成做出更加正确的决策。面对众多不同消费者,不同渠道发布的大量评价、留言、微博等信息,对数以亿计海量信息进行处理的过程显然是人工无法完成的,近些年,国际国内都有专业研究机构对这一问题进行研究开发,并取得了一些进展:计算机系统能够准确抓取这些不同来源的信息,,并企图了解用户的真实意图,得出正负面评价。那么计算机系统又是如何对各种各样的信息进行“理解”,“分析”,并准确分辨出哪些是正面评价,哪些是负面评价呢?对此,《网络舆情正负面信息识别的方法》系列文章将为您答疑解惑。通过这一系列稿件,结合本人在优捷信达科技研究工作,将为您详细介绍计算机对自然语言的分析原理,以及对情感分析中与舆情正负面密切相关的“极性分类”领域进行详细介绍,并介绍目前学术上流行的极性分类方式及其优缺点,展望正在研究的最新技术前沿,帮助您了解市场上流行的“舆情监测”,”信息监测“,“消费者调研”等等信息处理系统的工作原理。互联网上80%以上的信息是以文本方式呈现的,网上的用户评论尤其如此。这些信息就需要所谓的“自然语言处理技术”来进行处理。网络文本信息中包含了客观陈述和主观陈述,如果对主观陈述中所包含的情感进行分析,则是自然语言处理方面最活跃的一个研究方向:“情感分析SA(SentimentAnalysis)“,这一研究方向主要关注所处理的信息中的意见、情感和主观性。在各种情感分析中,对情感的正负面——也就是褒义、贬义进行分析判定,是目前为止情感分析方面最主要的任务,也叫做“极性分析”。极性分析可以被看作是这样一个任务:“对于给定的一段带有观点的评论性文本,标记出它是整体正面评价或者整体负面评价”。通俗来说也就是标记某一段评论性文字所代表的倾向性情感是正面还是负面,对所表达的主题是喜爱还是讨厌,是赞同还是反对等等。本文将详细描述极性分析的背景、过程和意义。极性分类的背景情感分析系统是一种具有情感分析功能的计算机软件系统,它能从微博短文、网页评论等文字中提取情感信息,让计算机自动分辨情感正负面,自动汇报给客户。例如,优捷信达科技对中海地产进行客户关系舆情监测工作时,需要及时准确地掌握获取中海业主的意见和建议,通过慧眼系统自动提取信息,分辨正负面,并汇报给中海地产,协助他们防患于未然,为业主提供更优质的服务。为了实现上述系统,需要完成以下工作:需要对文章或者评论进行检测,分析出带有主观意见的段落句子;对这个句子进行细分,提取主题、意见发起者、相关意见,并对这些意见进行正负面分析或者极性分类。首先,需要让计算机系统分辨出哪些文件或文件的哪一部分能够表达真实的主观信息。这一具有挑战性的任务也被称为主观表述检测,目前这一任务已经得到很好的解决。第二步,基于原始文本中提取的主观信息,将进一步提取其所表达的意见,确定有哪些内容,以及他们之间的关系:要素一:主题提取:提取带有评述性的观点,它表述的主题都有哪些方面。要素二:观点持有者识别:确定持有这些评述性的观点的人。要素三:陈述的选择:鉴别哪些是观点持有者发布的意见,然后去除其他人的陈述。以上三个要素是为了让计算机准确地选择某一个人对某一个主题的观点。第四步是对这一观点进行正负面分析。要素四:舆论分析:通过计算“理解”主观表述的倾向,即观点的正负面分析,包括如下几种分析方式。1.将舆论归入到情感极性中的正面或负面“,这个问题被称为极性分类。2.“在正负面两个极端之间确定它的强度”,这个问题被称为序列回归。3.提取意见的同时也提取出现这个意见的原因。系统不仅可以分析“用户是否喜欢它/用户到底有多么强烈地喜欢它”,而且还能分析“为什么我们的用户喜欢它”。4.文本分类的观点,有点像美国政治人士的政治立场:“自由”或“保守”。由于篇幅所限,本文仅就“将舆论归入情感极性中的正面或负面”这一问题进行描述。2.极性分类过程输出报告分类特征提取极性结果数据化表示主观部分对背景所描述的极性分类过程进行总结,典型的极性分类过程如下:图表SEQ图表\*ARABIC1极性分类流程图包括以下步骤:第一步,特征提取方法。它将原始文档的主观态度转化为机器可以识别的符号化的句子或陈述。通俗来说就是通过计算机系统的设定,用某种方式对网络上的文字进行识别和提