基于Hadoop生态圈的数据分析平台设计.docx
《基于Hadoop生态圈的数据分析平台设计.docx》由会员分享,可在线阅读,更多相关《基于Hadoop生态圈的数据分析平台设计.docx(5页珍藏版)》请在第一文库网上搜索。
1、基于Hadoop生态圈的数据分析平台设计自XX实施大数据战略以来,全省社会经济高速发展,通过支付系统XX城市处理中心处理的跨行资金交易呈快速增长态势,如何从海量真实交易数据中提取和分析有效信息,对支付系统XX城市处理中心提升工作效率、为XX人民银行系统及地方政府提供管理决策依据等方面都具有重要意义。支付系统XX城市处理中心现有数据统计分析系统仅提供了跨行资金交易数据的基础查询和初步统计功能,对于全省全年全系统或全省半年全系统或某地区特殊固定时段全系统的数据则需要进行二次人工统计,不仅耗时且容易出错,而对于领导关心的行业资金流入流出、企业资金流入流出、不同时段下资金流动监测预警、各地区经济发展动
2、向等情况则完全无法实现。在全行要求过紧日子的背景条件下,为有效解决当前工作存在的问题,高效快速完成对海量跨行交易数据的统计查询,支撑更具深度的数据挖掘分析,实现直观的数据可视化展示,建设一套低成本、高效率的央行支付系统区域数据分析平台迫在眉睫。本文旨在通过利用支付系统XX城市处理中心已有的Pe机及网络设备作为硬件基础,结合HadOOp、HiveHBaSe、SPark等开源产品,对XX支付系统数据分析平台进行实践分析。该平台设计方案与原数据统计分析系统基于单机处理的设计方案对比情况如表1所示。表1原数据统计分析系统与基于Hadoop的XX支付系统数据分析平台对比特点原数据统计分析系统基于HaCk
3、)OP生态圈的贵州省央行支付系统微据分析平台计算性能延迟低,处理小文件快,数据量庞大时单台计算机性能难以负载处理文件体量级较大时更快,有较好的计算能力,拓展性好,性能可伸缩存储性能存储设备容量,吞吐量较为有限多机共同构成集群形成较大的计算资源,高吞吐量容灾性硬件故障将导致不可用,硬盘故障易导致数据丢失数据有冗余备份,分布式存储,个别节点受损不影响集群运行,良好的容灾性能一、功能分析XX支付系统数据分析平台应实现对全省跨行资金交易的数据处理、查询统计、风险预警、多维分析、报告输出和系统管理等功能,其中,数据处理包括数据采集、数据清洗、数据加密等;查询统计即对原数据统计分析系统的数据统计、业务量查
4、询、流量流向统计、精确交易查询等功能进行完善和优化;风险预警即对交易金额、交易笔数、可疑交易等进行预警;多维分析即实现基于业务需求拖拉拽可视化组件进行自助分析,可灵活配置相关指标字段、过滤条件、结果展示等选项,实现对XX内各行业资金流动情况、各地区经济发展动向等内容的动态分析;报告输出即根据相关报告模板,结合预设指标参数、算法等,自动填充对应内容,生成图文表并茂的分析报告;系统管理则实现用户管理、资源管理、权限管理、日志管理等系统后台管理功能。二、平台设计1 .平台架构设计。平台架构设计除数据源外,平台按照数据采集层、存储层、应用层、业务层、数据展示层共5个模块进行划分。数据采集层主要负责对原
5、始数据的采集和清洗,经过预处理后的数据流向存储层;存储层负责根据业务功能需求和性能考量,提供相匹配的数据存储方式,为业务层和应用层服务;业务层主要负责实现业务处理相关事务,封装业务层面上的算法逻辑,供应用层引入调用;应用层负责与用户交互,根据用户指令对接业务层处理逻辑,调度计算任务,管理各项资源以及调整系统设定;数据展示层负责将处理完毕的数据结果以图表、表格、导出文件等形式反馈至用户。2 .平台搭建。集群复用支付系统XX城市处理中心现有9台运维终端,平均每个计算节点分配硬件资源为12核心CPU、28G内存、ITBSSD硬盘,集群部署于支付系统专网运维区,便于系统自动采集更新属地数据,用户通过其
6、他运维终端对集群进行管理。各计算节点基于1inux部署Hadoop-3.3.0集群,其中1个Master节点、8个Worker节点,通过Zookeeper实现高可用,在HadoopNameNode上部署Hive数据仓库供数据管理,集群上搭建HBase供快速响应查询,部署Spark提供流式数据处理能力,并弥补Hadoop在执行MR任务耗时较长的短板,集成SUPerSet作为B1工具对数据进行抽取整合,提供展示图表等。3 .原始数据。该平台的数据来源主要分为属地数据和外部数据,其中,属地数据为CSV格式,包含所有流入流出XX大小额支付系统、网银支付系统和外币支付系统的支付交易数据,平均每日约80万
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hadoop 生态 数据 分析 平台 设计