大数据技术下的网络舆情分析系统.docx
《大数据技术下的网络舆情分析系统.docx》由会员分享,可在线阅读,更多相关《大数据技术下的网络舆情分析系统.docx(4页珍藏版)》请在第一文库网上搜索。
1、大数据技术下的网络舆情分析系统随着Web2.0的发展,人们交流更加便利,互联网成为思想文化和社会舆论的重要传播渠道。同时,互联网每天产生的数据也以PB规模增加,大大增加了舆情信息的挖掘难度,预示着网络舆情分析也正式步人了大数据时代。网络舆情是社会舆情在网络空间上的映射,对出现的虚假有害信息不加控制,任其肆意传播,极易引发重大群体性事件,不利于社会稳定。基于此,本文在分析大数据及网络舆情相关概念和特征的基础上,将大数据处理技术应用到网络舆情分析中来,构建了基于大数据的网络舆情分析系统模型,描述了系统各组成模块功能。0前言据中国互联网络信息中心(CNN1C)发布的第34次中国互联网络发展状况统计报
2、告显示:截止2014年6月30日,我国网民规模达6.32亿,互联网普及率为46.9%,博客和微博的使用率分别达到70.3%和43.6%,使用社交网站和网络论坛的网民规模超过3.8亿,70%以上的网民频繁在互联网上发表言论并进行话题讨论,充分表达思想观点和利益诉求。互联网已逐步成为思想文化信息的集散地和社会舆论的放大器。同时,每天以PB规模增长的数据也为相关部门对网络舆情的管理和态势研判带来了很大困难。网络舆情是各种社会群体对自己关心或与自身利益相关的热点事件或事物所表现出来的具有一定影响力并带有倾向性的认知、情绪、态度和意见的总和。具有广泛性、突发性、主观性、多元性四个特征。广泛性是指参与人员
3、类型和地域广泛;突发性指舆情事件一旦发生,就会很快成为引发社会舆论的导火索;主观性体现在舆情信息带有极大的情绪化和非理性因素;多元性表现在信息内容、传播途径和表达方式、意识形态和观点内容三方面。因此,如何在大数据时代从互联网海量信息中及时发现舆论热点和各类事件发展趋势,已成为各级政府部门和研究机构十分关心的问题。本文在分析大数据及网络舆情概念和特点的基础上,构建了基于大数据的网络舆情分析系统模型,并对舆情处理技术进行具体分析。1大数据和网络舆情1.1 大数据概述大数据指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。其
4、特征可用四V来概括:第一,数据量巨大(Vo1Ume);第二,数据类型繁多(Variety);第三,价值密度低(Va1Ue);第四,流通速度快(VeIocity)OHadooP作为大数据处理平台,具有高可靠性、高效性、可伸缩性三大特征。高可靠性体现在:当某一存储节点瘫痪时,仍可以从其他节点的副本中获得数据;高效性体现在:利用HDFS分布式文件系统,提高应用程序数据访问的吞吐量,通过MaPRedUCe并行编程模型实现并行计算,大大提高了处理速度;可伸缩性是指:HadoOP可以构建在许多廉价的计算机集群上,对硬件设施的要求低,可按任务需求增加处理节点。1.2 网络舆情概述网络舆情的处理,可分为信息采
5、集、信息预处理、舆情分析、舆情预警四个步躲完成。其中,信息采集利用网络爬虫技术完成;信息预处理主要包括网页净化、网页内容抽取、中文分词、文本向量化及特征表示、特征抽取;舆情信息分析涉及话题识别和跟踪、文本倾向性分析、热点发现、自动摘要等技术。目前常用的网络舆情分析方法主要有网络调查法、基于统计规则的模式识别方法、基于内容挖掘的主题监测方法等。国外,IBM公司设计的话题检测系统运用两次聚类策略,在计算两篇新闻报道的相似性后,把新闻报道归人不同的子话题簇中,在一定的延迟时间后,将该新闻报道加人最终话题簇。与此同时,国内市场上也涌现出大量网络舆情监测分析平台和软件,比较知名的有人民网舆情监测平台、方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 网络 舆情 分析 系统