内容发布更新时间 : 2024/11/17 5:21:38星期一 下面是文章的全部内容请认真阅读。
龙源期刊网 http://www.qikan.com.cn
文本观点挖掘和情感分析的研究
作者:涂慧明
来源:《电脑知识与技术》2016年第05期
摘要:观点挖掘和情感分析是分析用户观点,反馈,情感,评估,态度和个人情感的一个研究领域。这是自然语言处理中最活跃的一个研究领域,在数据挖掘,Web挖掘和文本挖掘领域中同样也被广泛研究。随着社交媒体、Web2.0技术(如新闻、论坛、博客、微博和社交网络)的发展,情感分析的重要性相应增长。首次在人类历史上,我们有了大量的数字形式的观点意见需要进行分析。在本文中,我们对文本观点挖掘、情感分析以及相关技术进行了研究。 关键词:观点抽取;观点挖掘;情感分析;文本挖掘
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)05-0235-03 Abstract: Opinion mining and sentiment analysis is the field to analyzes the user point of view, feedback, emotion, sentiment, evaluations, attitudes, and emotions. This is one of the most active research areas in Natural Language Processing. Data mining, web mining and text mining have also been widely studied. With the development of social media, Web2.0 Technology (such as news, forum, blog, micro-blog and social network), the importance of sentiment analysis growth. For the first time in human history, we have to analyze a large number of opinions in digital form. In this paper, we research on text opinion mining, sentiment analysis and related technology.
Key words: Opinion extraction; Opinion mining;Sentiment analysis;Text mining 1 概述
在过去的十五年里,作为情感计算和自然语言处理(NLP)的子任务,关于主观性和情感分析(SSA)的自动化处理研究已经有了蓬勃的发展。社交网络的诞生并飞速发展使得在世界各地的人们可以随时分享、评论或讨论任何话题成为了可能。在这种情况下,社会媒体文本中表达的意见、情绪和情感已被证明是有一个对全球社会和经济具有较高影响力的行为。SSA系统对许多现实世界的应用高度相关(如市场营销,电子管理,商业智能,社会分析),并在自然语言处理(NLP)的许多领域,例如信息抽取、问答、文本含义等。近十年来,已经有大量的相关研究方法和成果,以及由这项技术创建的应用,这些都足以证明这一领域的重要性。尽管已经有大量的资源和方法去处理情感分析[1],但SSA依然是一个亟待解决的问题。 2 情感分析研究的难点
龙源期刊网 http://www.qikan.com.cn
情感分析文本可以看作是积极的,消极的或者其他客观的分类,因此它能够作为文本分类任务。由于文本有很多不同主题,因此它也可以被分为多种种类,但是情感分析只有三种分类。然而,有很多因素使得情感分析比传统的文本分类要难的多。
1)域依赖:观点挖掘和情感分析[2]面临的最大的挑战是情感词的从属域的性质。一个特征集可能在一个领域会有很好的性能,同时它在其他一些领域性能又非常差。
2)限制分类过滤:在决定最受欢迎的想法或概念时,分类过滤中有一个限制。为了得到更好的情感分类结果这个限制应该减少。这存在过滤器给无关的意见的风险并且它能够导致情感分类的判断错误。
3)观点挖掘软件可用性不对称:观点挖掘软件非常昂贵,并且当前只有大型企业和政府能够负担得起。它超出了普遍公民的预期,这本应该是所有小到中型企业都可以承受的价格,这样才能让每个人都能从中受益。
4)合并隐式观点和行为数据:对于成功的情感分析,观点词应该和隐式数据结合。隐式数据决定情感词的真实行为。
5)自然语言处理限制:自然语言处理技术在处理一些模棱两可的句子时结果往往不准确。这些也给情感分析造成阻碍。 3 情感分析技术研究 3.1 文章级别的情感分类
这种方法将整个文档作为一个单一的实体,将情感分为积极或消极的或中性的。文章级别的情感分类[3]假定文章对单一目标表达一个单一的情感,这个情感归属于某个人或某个产品或某个服务。很显然,这种假设在一个产品说明文档中才成立。但是在论坛或者博客等中,对比的语句就会出现,评论者对比两个产品有类似的特征。因此,文章级别的情感分析在论坛和博客中是不可取的。
文章级别的情感分类主要有两种分类技术:有监督学习和无监督学习。 3.1.1 有监督学习方法
情感分类作业可以被配置为有两个类别的有监督学习,积极的类别和消极的类别。产品评论大多被用作训练和测试数据。分别对每一条评论进行1至5分的评分,评分决定了他们是积极的类别还是消极的类别。例如,4分或者5分的评价就认定为一个积极的评价,1分或2分就认定为一个消极的评价。大多数研究论文为了简便没有使用中性分类,我们把3分的评价认定为一个中性的评价。
龙源期刊网 http://www.qikan.com.cn
现有的一些有监督学习技术都可以用于情感分类,例如朴素贝叶斯和支持向量机(SVM)。在大多数情况下,支持向量机比朴素贝叶斯分类器有更好的边际改善。当训练数据集很小,朴素贝叶斯分类可能更合适,因为支持向量机需要大量的数据集才能建立高可靠的分类器。研究人员在机器学习中使用了许多技术和特征,在情感分类中最重要的步骤是选择一个适当的特征集,情感分类中最常用的特征有:
1)术语及其频率:单个的词被称为一元模型以及包含相应词频的多元模型。这些特征已经被证明对情感分类非常有效。
2)词性(POS):POS信息是情绪表达的一个非常重要的指标。例如形容词包含大量关于文章情感的信息。
3)情感词和短语:情感词和短语表达积极或消极的情感。例如优秀的、聪明的、出色的是积极情感词汇,糟糕的、枯燥的、不好的是消极情感词汇。虽然大多数情感词汇都是形容词或副词,但名词和动词同样也可以表达观点。例如在一些文章中垃圾、喜欢、讨厌等都可以表达观点。
4)否定词:显然,否定词是评价一个句子的极性非常重要,因为他们可以改变情感倾向。例如,“我不喜欢这辆车”就有消极的意思。
在此方法研究中,本文使用了三种机器学习技术,朴素贝叶斯、最大熵分类和SVM技术对影评文章进行分类。测试了多种特征(一元模型、二元模型、POS、词语的位置)去寻找最优特征集。结果表明,在SVM分类器中使用一元模型性能达到最佳。
有监督学习最大的限制在于训练数据的质量和数量,当训练数据存在偏颇或不充分结果可能会失败。基于有监督学习的子文档的情感分类难度更大,因为可用的信息量比较少。 3.1.2 无监督学习方法
显然,情感词和短语是情感分类的主要指标。一些研究已经实现了利用这些情感词和短语的无监督学习方法的情感分类。文章[4]提出了一个简单无监督学习算法对评论进行分类,通过计算词语的评分来判断词语是积极的还是消极的以及情感强度。这种方法扫描整个短文匹配POS模式,计算出这些短语的情感倾向,然后统计所有短语从而得出整体的倾向。
总之,文章级别的情感分类最大的好处在于提取一个主题或事件的主要观点。不过,他并不能提供人们的详细情感。 3.2 句子级别的情感分类