发布时间:2023-09-22 10:38:36
绪论:一篇引人入胜的社交媒体文本分析,需要建立在充分的资料搜集和文献研究之上。搜杂志网为您汇编了三篇范文,供您参考和学习。

3月11日日本发生9.0级大地震以后,很多人通过微博及时得到亲人、朋友安全的消息,也有很多人通过微博了解到震区的实时情况。社交媒体在此次地震中更加彰显了其巨大的威力。国外Facebook、Twitter等社交媒体深受欢迎,国内人人网、开心网、新浪微博等社交媒体也被广泛应用。
在过去,社交媒体更多地被作为个人娱乐、休闲,以及获取感兴趣的信息的一个途径。在商业领域,社交媒体也越来越被企业用来进行市场营销等工作。比如说,新产品推出早期,可以借助社交媒体得到产品特性的优劣评价,以及需要进行哪些改进。再比如说,可以在社交媒体的关系网络里找到关键节点的关键人物,从而有针对性地对产品进行有效推广。充分挖掘社交媒体中的信息,成为辅助企业进行正确决策的有效工具。
但是在过去,社交网络中的这些非结构化的数据很难被整理和挖掘。随着社交媒体信息的商务价值的不断提升,BI厂商开始考虑通过有效手段挖掘这些信息。
SAP中国区首席技术官张侠在接受记者采访时指出,BusinessObjects 4.0中的深层文本分析能整合人们在社交媒体流、博客和电子邮件中所表达的想法和观点,并辅助企业做出更加正确的商业决策。这样,人们不仅可以准确地监控、分析、搜索、报告和处理他们的交易数据,而且还可以充分地了解博客、电子邮件和社交媒体流等非结构化内容中所表达的趋势和观点。这种新的多源、多维语义层及共同编程体验,简化了即时分析和内容创建过程,能以更快的速度向用户提供更全面的建议。
关注三大特性
BusinessObjects 4.0是BusinessObjects产品近三年以来最重要的一次更新。SAP于2008年收购了BusinessObjects公司后,以最快的速度将其产品转化为自身的商业智能软件平台。
在此次的产品中,SAP将整合了BI和EIM(企业信息管理)的解决方案称为商业分析软件,并指出实时、移动和社交是商务分析软件的发展趋势:基于内存计算,实现实时商务分析;用户手中瞬间拥有强大的商业智能能力,并且能够得到比以往任何时候都多的移动终端的支持;借助准确的企业和社交数据,结合结构化和非结构化信息,提供信息管理工具。
"这个研究项目让我们清楚地捕捉到了中国社交媒体用户的行为和态度,"凯度公司传播总监曼迪·浦乐表示。"我们发现了中国社交媒体用户的特别之处。
该研究也让我们建立起了很好的参照系,能比较中国和其它国家的情况。同时我们也有机会把将来的数据与今年的作对比,以观察中国社交媒体环境的变迁。
核心数据67.2%"调节心情,缓解压力" 48.3%"让生活更便捷,更高效"有12,221名实名注册用户参与了该报告的网上调研部分。其中76.8%的用户表示社交媒体对他们生活的影响是正面的,16.5%认为中性,只有6.7%的被访者认为社交媒体让生活变坏了。
就正面影响而言,人们认为社交媒体可以"调节心情,缓解现实生活中的压力"(67.2%)和"让我的生活更便捷,更高效"(48.3%)。而在负面影响方面,人们担心的有"对纸质书籍的阅读少了"(52.8%)和"个人信息安全,隐私缺乏保障"(39.1%)。
虚拟社会的联系看起来还没有严重影响真实生活中的关系,因为仅30.8%的受访者认为社交媒体"降低现实中人际交往的质量"。"我们可以看到人们把社交媒体作为`晒幸福’的渠道,比如美食、美景、萌宝宝。
中国人还利用社交媒体调侃不如意的事情或是坏现象。他们认为社交媒体是用来排遣生活中压力的有效工具,"央视市场研究股份有限公司(CTR)媒介与消费行为研究的研究总经理沈颖评论道。
"然而,我们也注意到人们开始关注隐私和社交媒体对现实生活中关系的负面影响。我想以后我们会听到更多的此类担心,而社交媒体的负面影响将更多地显现出来。
"沈颖的团队执行了该调查的网上调研部分。网上调研也调查了微信和微博的使用情况。
受访者认为微博是个"公开社交"渠道,在"公开互动"方面领先于微信(40.2%对25.3%),而微信则是个"私密社交"渠道,更多地用来与同学、朋友和同事沟通(76.3%对69.6%)。该报告还分析了5.3万名中国城市居民的连续性调查结果,得出了中国社交媒体用户的特征。
在80后90后人群中社交媒体的渗透率高于城市居民的平均值。社交媒体用户中48.6%的人单身,而城市居民总体中只有29.5%的人是单身。
尽管社交媒体用户喜欢追逐最新的时尚和科技潮流,但他们同时也有很多精神层面的需求。他们中同意"我有信仰"的人和"我对其它文化有兴趣"的比例都高于城市居民整体平均。
为了解年轻一代的社交媒体用户,该报告对8000名80后90后新浪微博用户的300万条微博进行了语义分析。两个人群在微博上都表现出了压倒性的正面情绪,其中80后(76%)稍稍高于90后(72%)。
"拥有6亿用户的社交平台反映和定义了什么是中国当下最热门的话题,同时也提供了最佳的了解中国消费者的机会。我们的研究利用了CIC自有技术分析了80后90后用户发表的300万微博内容,"CIC的创始人和CEO费嘉明评论道。
引言
随着web2.0的快速发展,社交网络逐渐从各个方面影响着中国网民。微博成为了社交网络中社交工具的典型代表。网民使用微博在互联网上的活动主要是获取信息与信息,的信息含有自己对某事物的看法、观点、感知等个人情感。
它们主要以文字,表情符号(新浪微博默认表情及标点符号)形式出现。通过用户之间的互动传播(一个微博用户具有双重角色,即博主与粉丝),这种社交网络媒体具有传播速度快,传播范围广等特点。因此对微博情感识别与分类就显得尤为重要。
对微博文本的情感进行识别与分类,不仅能让企业及时了解客户需求寻找到潜在的客户群体,通过实时、准确地评估其情感。能够获得客户市场反馈信息及客户的消费习惯,帮助企业进行有效的需求管理及企业战略调整,从而快速应对市场变化,提高企业竞争力。还能帮助政府部门实时监控民众情绪,对负面情绪及时采取措施,防止不法分子企图通过微博平台传播谣言,以此保证社会的和谐稳定,政府了解民意,为制订国家政策提供参考。
同时也能协助医生分析心理障碍者,及时掌握患者情绪波动,准确对患者病情进行有效的对症下药。避免了患者不能准确描述病情,而带来的不相关治疗。
因此对微博情感进行研究具有重要的理论与实践意义。文章意在为政府或企业等利用到微博情感分析数据的领域提供基础。
鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统,对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1],抓取微博的文本内容,然后进行分词,去停用词,文本规范等预处理操作,再抽取情感特征,对文本情感识别与分类,最终输出分类结果。
一、相关工作
1.1文本获取及预处理
对微博数据资源的获取有两种形式,一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本,系统可以自动进行情感识别与分类;另一种是用户以微博文本URL形式输入,系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。
网络爬虫结构先将用户输入URL作为爬虫起点,通过web协议(主要是HTTP协议)采集页面,使用多线程或并列技术获取网页数据信息,网络爬虫结构也提供了链接过滤模块(过滤掉不符合URL规范的链接),页面数据库模板(存储已经爬取到本地的原始页面数据,以备预处理阶段建立索引使用)。
为了提高分类的准确率,减少获取文本内容不必要干扰,对文本进行预处理操作十分必要。系统的预处理操作主要包括:
1.文本规范化处理,判断待处理的文本是否含有由两个#组成的话题标签,若有则删除两个#及它们之间的文字内容。
2.使用正则表达式判断微博文本是否含有以下三种含@微博标签,若有将它们删除①以@开头,以:结尾②以@开头,以空格结尾③以回复@开头以:结尾。
3.判断英文词语是否含有感彩,删除不必要的英文词语。
4.用中文描述替代含有感情的“?”和“!”去除一些标点符号。
5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词,去除停用词。
1.2文本特征抽取
文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度,消除无关特征的噪音,通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有: 文档频率、信息增益法、期望交叉熵等。文档频率[4](Document Frequency )一种简单的特征约减技术,常用自动特征选择,通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值,可表示为
信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差值,根据所获信息增益的多少筛选有效特征,已成为机器学习领域应用较为广泛的特征选择方法。信息增益法计算公式可以表示为:
由于当特征数目较少时,使用该方法得到的数据稀疏,分类结果会不理想,因此本文首先对预处理后待分析的文本里出现的每个词计算其信息增益,设置一个阈值,抽取特征词,按照信息增益值降序选择特征项组成特征向量。
期望交叉熵[6](Expected Cross Entropy)反应了文本类别的概率分布与在出现了某个词条的情况下文本类别的概率分布之间的距离。
词条的交叉熵越大,对文本类别分布影响也就越大。所以选CE最大的K个词条作为最终的特征项。
期望交叉熵计算公式:
为了提供特征词抽取的时间效率,针对微博的数据量很大的特点,使用期望交叉熵和TF-IDF求方差的方法抽取情感特征词。
1.3文本情感识别与分类
采用基于朴素贝叶斯主客观句识别方法[7]和支持向量机的分类方法[8-11]对文本分类。朴素贝叶斯方法是一种基于事件概率简单而误差率较小的分类方法。基本原理是:在事件相对独立的条件下,事件A在事件B发生的条件下的概率且与事件B在事件A发生的条件下概率是不相同的。及文档A属于B i类概率表示为
系统应用思想:对有已知类别集合S(x1,x2,…,xn),求在待分类项出现的条件下,集合中各个类别出现的概率,哪个类别的概率值大,就认为待分类项属于那一类别。并将对每个特征项主客观句的条件概率计算结果输出,作为支持向量机分类器的输入值。
系统的工作流程图如图1所示。
二、实验分析
使用第二届自然语言处理与中文计算机会议所提供包含4000条已经标注是否含有情感色彩的中文微博语料,含有13252个句子,且主观句中又表明了所属具体情感类。情感类别分为7个类别,分别是:喜好、安乐、惊奇、厌恶、悲哀、愤恨和恐惧。
选择这些数据作为系统测评数据主要是与系统测试结果进行比较,核实评价实验结果的召回率(R),准确率(P),性能评价指标F值。求解公式如下所示:
系统将实验测评数据首先进行预处理,对其进行规范化、分词去除停用词、抽取情感特征,然后采用朴素贝叶斯方法,使用其公式计算结果来识别主观句,支持向量机方法先将抽取的特征词转换成向量形式,再将向量化后的文本放到向量机的模型中,最终输出分类结果。通过计算支持向量机的情感分类方法召回率达到74.4%,准确率高达63.76%,F值达到0.6534.
实验中采用准确率,召回率,F值测评指标,对常见的情感特征抽取方法[16]实验结果进行了对比,见表1,通过对比朴素贝叶斯和支持向量分类方法对主客观句的识别结果,得出结论:本实验中对主客观句的识别朴素贝叶斯方法比支持向量机方法的实验结果更好。因为支持向量机方法准确率虽更高,但召回率较低。
实验结果见表2。对已识别的主客观句,我们采用支持向量机的一对一的多步分类方法及一对其余的一次分类方法进行情感分类。
实验结果见表3。实验结果表明:一对一多步情感分类方法效果优于一对其余一次分类。因为一对其余分类方法可能出现重叠现象或因不可分类现象而引起数据集的抖动。因此实验最终选择支持向量机的一对一多步分类方法。
三、结语
微博作为网民在互联网主要活动之一,逐渐从各个方面影响着人们,网民带有情感的言论对各行各业都有着不可估量的使用价值。因而对微博文本的数据分析研究有一定的社会意义。
通过查阅文献发现基于朴素贝叶斯识别主客观句的方法及基于机器学习支持向量的方法有较高的精度。而由于针对中文微博的研究大部分是理论性的研究,因此本文通过构建系统,将基于朴素贝叶斯的识别主客观句个方法及支持向量机的方法的研究思路实践化。实验结果对企业、政府及广大网民均有重要的社会意义。
展望:
1.后期会打破仅在初步解决微博文本的情感识别和分类问题的研究,接下来会投入对用户的图片信息,链接的视频声音信息进行研究。
2.本文去除英文词语,采用的是人工标注方法。鉴于部分国人倾向于有使用英文的习惯,所以会不断的完善系统情感库,或设计系统能自动翻译,以此减少人工工作量。
参 考 文 献
[1] YANG Yuekui,DU Yajun,HAI Yufeng,et al.A topic-specific web crawler with web page hierarchy based on HTML Dom-Tree[A],Asia Paciic Conference on Information Processing (APCIP 2009)[C].Washington DC:IEEE Computer Society,2009:420-423.
[2] 张彪.基于关联分析的文本分类特征选择算法[J].计算机工程.2010(22):184-186.
[3]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2011,26(1):73-83.
[4] Dai Liuling,Huang Heyan,Chen Zhaoxiong.A Comparative Study on Feature Selection in Chinese Text Categorization[J].Journal of Chinese Information Processing,2004,18(1)26-32.
[5] 李海瑞.基于信息增益和信息熵的特征词权重计算研究[D].重庆大学,2012.
[6] 廖一星.文本分类及其特征降维研究[D].浙江大学.2012
[7] 蒋良孝.朴素贝叶斯分类器及其改进算法研究[D].中国地质大学,2009
[8]杨鼎,阳爱民.一种基于情感词典和朴素贝叶斯的中文文本情感分类方法 [J].计算机应用研究,2010,27(10):3737-3739
[9]A.Basu,C.Watters,M.Shepherd.Support Vector Machines for Text Categorization.Proceedings of the 36 th Hawaii International Conference on System Sciences,2003.
[10]赵晖.支持向量机分类方法及其在文本分类中的应用研究[D].大连理工大学,2006.
[11]张博.基于SVM的中文观点句抽取.[D].北京.北京邮电大学,2011
[12]Youngjoong ko,Pjinwoo Park,Pjungyun Seo.Automatic Text CategorizationusingtheImportanceofSentence s[A].Proceedingofthe19thinternationalconferenceonComputationlinguistics[C],Taipei,Taiwan,2002:1-7.
[13] 韩忠明,张玉莎,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.