企业舆情监控与分析系统建设技术方案书.docx
《企业舆情监控与分析系统建设技术方案书.docx》由会员分享,可在线阅读,更多相关《企业舆情监控与分析系统建设技术方案书.docx(43页珍藏版)》请在第一文库网上搜索。
1、企业舆情监控与分析系统建设技术方案书目录第一章总论41 .项目背景概述42 .项目建设必要性43 .建设目标54 .用户及系统现状65 .存在的问题描述76 .本期功能需求的描述9第二章建设内容和方案131建设方案131.1监控数据源范围新增1312Pa虫功能新增141.2.1 Pa虫引擎性能提升141.2.2 Pa虫任务管理界面151.2.3 升级爬取文本存储数据库161.2.4 新增模拟手机访问爬取16125应对反Pa虫的策略17125.1 应对微信的反Pa虫17125.2 应对微博的反Pa虫171.1 .5.3其他应对反Pa虫的技术181.3 网站改版监测功能新增181.4 关键字自定义
2、功能新增181.5 语义解读和分析功能新增19151关系抽取算法191.5.2知识库构建191.53聚类分析模块191.5.3.1聚类201.53.2关键词聚类201.5.3.3 聚类报告201.5.3.4 聚类规则201.5.3.5 话题挖掘201.53.6舆情聚类分析20154标签分类功能新增21154.1 人工标签标注功能21154.2 语义标签分析功能211.6 舆情处理结果统计功能新增21161统计图表展示221.7 舆情模块新增221.7.1 舆情工单功能221.7.2 工单统计功能231.7.3 工单任务超时告警231.8 舆情专项报告功能新增232技术先进性及技术难点312.1
3、 PA虫性能升级312.1.1 去队列化分布式Pa虫引擎312.1.2 文本信息存储数据库332.2 语义港I技术34221关系抽取算法342.3 内容分析技术362.3.1 词典匹配法362.3.2 词向量训练法362.3.3 知识库构建372.4 舆嗡析技术382.4.1 内钳示签标注382.4.2 信息可视化技术403界面图例41第一章总论1 .项目背景概述随着互联网及智能手机应用的普及,中国的网民数量及活跃热度正逐年上升。近两年社会热点事件背后无不包含网络舆情的大力推动,因此如不及时对一些负面的舆情采取正确的措施分析和应对,会造成难以估计的后果。在新的互联网形势下,面对这样的困扰,需要
4、借助互联网舆情监测工具及时监测、汇集、研判网上舆情,引导舆论方向,化解危机舆论。跟踪事态发展,及时向有关部门通报快速应对处理,变被动为主动,使网络舆情成为领导和相关部门决策的重要依据。利用舆情监测系统平台,配合相应的舆情工作机制,听取广大群众的心声。另外互联网所承载的大数据给企业和投资者提供了巨大的信息宝库,如何在浩如烟海的数据中找出可供企业决策的信息及业务扩展的新热点,需要从宏观数据分析到针对特定行业,领域,产品,采购需求的研究分析,帮助企业了解掌握行业的现状和趋势,对企业的经营决策提供指导性的数据统计和分析,增强企业的竞争能力和业务拓展能力。而舆情正是用户表达诉求最直接,最真实的方式,妥善
5、利用和管理对企业至关重要。2 .项目建设必要性本期舆情系统功能建设将着力在数据抓取、分析、舆情的分析与利用、业务处置流程方面。目前系统检测范围包括新浪微博、微信、知乎、百度贴吧及几个重要网站。对新媒体检测能力还比较有限,网站监测目前仅覆盖若干门户网站,数据量的不足不能保障全面的了解热点舆情发展的动向和传播趋势,因此,本期扩容将囊括更大的监测范围,引入更大数量的监测数据。而现有的Pa虫引擎技术为较早期技术,功能上有不少短板,例如不支持https协议。为此,系统将升级现有的Pa虫引擎,利用最新Pa虫技术,提升系统检测范围和监测数据量。并对Pa虫管理进行优化,增加对微博、网站反Pa虫技术的应对策略。
6、针对现有系统聚类分析弱的问题,要从根本上解决问题必须从问题源头上着手。具体措施包括升级语义识别模块、构建知识库以便语义分析模块能从舆情内容中提炼出聚类分析所需的语义主体和上下层关系。并引入内容标签技术、事件聚类分析算法等技术。利用舆情聚类技术实现关注舆情热点,连续跟踪事态发展,能回溯事件并由系统自动分析完成事件专项报告。本期将升级舆情结果展示模块,利用信息可视化技术及图形优化界面提升管理员业务能力。3 .建设目标针对三期系统上线运行以来遇到的各种情况、行业技术发展的潮流,计划202X年对系统进行四期扩容改造,要求实现以下功能:1、数据源范围:各大知名网站、贴吧、论坛及新媒体信息数据的抓取。百度
7、搜索、微信搜索等元搜索数据的抓取。微博数据的Pa虫抓取能力。2、提供Pa虫功能。能够支持100+线程,1亿+量级页面(具体性能指标以完成数据抓取要求为准13、应对网站改版后的数据完整性要求。针对网站经常结构化改版导致数据缺失的情况,系统提供改版监测功能。如有改版,系统能主动通知管理人员修改Pa虫设置。系统应有能力应对网站改版后的数据完整性要求。4、具备关键字定义功能。关键字的增删改查、爬取优先级设置等。5、具备语义信息的解读与分析能力。在人工对数据标签分类的基础上,系统根据人工分类标签,通过语义分析研判,对舆情信息给出自动分类标签。6、具备舆情信息处理结果统计功能。对舆情信息按正负面、分类、周
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业 舆情 监控 分析 系统 建设 技术 方案