《智慧园区大数据平台建设与应用解决方案.docx》由会员分享,可在线阅读,更多相关《智慧园区大数据平台建设与应用解决方案.docx(52页珍藏版)》请在第一文库网上搜索。
1、智慧园区数字化建设大数据平台建设与应用解决方案文档版本:V1.0版本日期:版本作者:文档发布:文档版本历史与修改信息版本作者/修改者日期描述1主机测试方案21.1 A错误!未定义书签。1.2 B错误!未定义书签。2数据测试方案错误!未定义书签。2.1 使用云主机+云错误!未定义书签。2.2 数据库搭建简易网站错误!未定义书签。1总体平台设计1.1 总体架构园区大数据平台的核心是建立面向宏观经济发展、社会公共服务的数据库和数据服务。总体架构由支撑体系(标准规范支撑体系、管理运行维护支撑体系、安全支撑体系)、网络系统、信息共享平台软硬件系统环境、数据库体系(中心交换库、基础数据库、主题库、发布库、
2、宏观经济数据库管理系统、元数据库系统)、应用系统(数据交换处理系统、应用支撑系统、数据综合分析系统)组成。标准规范支摔体系图大数据平台总体架构图信息共享平台通过网络收集统计系统和各共建部门的信息资源,并有效地将这些信息资源进行分类整理,实现跨部门、跨行业的宏观经济管理信息共享,并向用户提供数据服务。1.2 体系结构图园区公共基础数据库信息共享平台划分为工作(生产)区、发布(共享)区和互联网信息发布区。在工作(生产)区构建宏观经济数据的采集、整合、处理和存储系统;在发布(共享)区构建宏观经济数据的发布与共享、存储与备份和专网门户系统等环境支撑系统;在互联网信息发布区构建互联网门户系统,为社会公众
3、提供宏观经济信息服务。园区大数据平台采用在线填报、数据库对接和基于消息的数据交换三种采集方式,集中采集、整合、存储各共建部门指标数据。中心交换数据库存储各共建部门交换来的原貌数据,基础数据库是对原貌数据进行审核转换和加工而成,是主题数据库和发布库构成的基础。元数据库对数据的采集交换、整合、存储、分析和发布全过程进行定义和约束。专网和互联网的用户可通过门户系统,分别对发布(共享)区和互联网信息发布区的数据进行访问。2人口基础数据库设计在没有数据标准的情况下,人口基础数据库数据中心对同一个数据字段可以从多个数据来源采集数据。如:婚姻状态字段可以从计生部门和公安部门采集。对于同一个数据字段,中心对于
4、该数据字段保存多个来源的版本。人口基础数据管理系统提供工具、服务来展现数据的不一致性,数据管理员根据工作制度,对数据字段进行电话等多种手段核实字段的真实数值。中心通过数据交换系统以数据服务的方式从各业务部门采集数据,保存到公共数据缓存库,使用人口基础数据管理维护系统进行数据比对、冲突检查、数据审核、数据转换。当数据达到一致性、完整性要求时,数据将由公共数据缓存库转存到人口基础数据发布库中,并通过数据交换系统以订阅/发布的方式提供给各业务部门使用。人口基础数据管理系统维护一个面向对象的公共数据模型,公共数据模型是公共数据标准规范的实现。公共数据维护系统控制着公共数据的输入和输出,为数据质量把关。
5、人口基础信息综合查询系统采用B/S结构,客户端采用浏览器,用户界面是实现不同功能的网页。综合查询系统的操作页面要求易于使用,使用户能够方便快捷的对网页提供的各项功能进行操作。采用菜单树的方式展开系统的功能。人口基础信息综合查询系统可以有针对性地,按照用户授权的不同,为不同用户提供不同层次的人口资源公共查询服务。人口基础信息功能如下图所示。人口基础信息库系统人口基础数据库管理应用系统功能模块列表:2.1 数据接收服务接收数据的查询是针对各部门交换汇总的信息,进行以部门为单位的信息查询。通过查询工作,可以了解各部门实际提交的信息情况,并实现信息详查和统计工作。系统提供了按部门查询的查询方式。2.2
6、 中心数据查询人口中心数据,就是经过数据比对梳理完成的人口基础信息。针对人口信息量大,涵盖范围广、内容繁杂的特点,在人口基础信息中心数据库设计中,采用信息扩展和关联的方法,逐级分领域和部门展示人口基础信息和扩展信息。系统根据部门需求进行查询分类,各部门根据本部门业务相关信息进行检索。如公安部门可根据身份证号、姓名、性别、民族为检索条件,进行基本信息的查询;可根据姓名、暂住证号、身份证号为检索条件,进行暂住人口信息的查询操作。其他部门检索与查询操作类似。2.3 决策支持子系统决策支持子系统是根据业务需要,基于人口基础信息,进行数据挖掘,实现统计报表操作,为领导决策提供快速的报表支持。2.4 授权
7、管理授权管理,就是提供信息需求部门申请查询授权,信息提供部门审批授权的功能。申请部门选择对应的信息表,向信源部门提出申请;信源部门根据业务规则,对申请部门提供授权或不授权,此外,授权功能提供时限控制和授权使用次数控制。2.5 数据清洗比对管理数据比对系统通过数据比对引擎,实现对人口基础信息的比对工作。依据的业务需要,数据比对包括比对操作,各部门数据的过滤查询,各部门信息比对入库结果查询。人口基础信息的比对,依据其特点,采用自动比对和人工参与比对结合的方式,实现基础信息的比对功能。数据过滤查询是针对部门提交的数据,进行梳理过滤与清洗,得出的清洗出的问题数据进行查询操作。与数据过滤查询类似,数据入
8、库查询是将部门信息与人口基础信息总表信息进行比对,并经过相关部门审批确认,比对出现差异错误信息的查询。2.6 信息核验结合比对系统人工比对功能,提供部门提出比对结果意见功能。当部门业务信息进入比对系统后,如出现基础信息库和业务应用源头部门信息不匹配,需要业务人员参与的情况下,提供业务部门信息核验功能。2.7 系统管理系统管理功能是实现对使用人口基础信息查询系统的用户进行管理。人口基础信息综合查询系统提供用户、角色、权限的设定。即每个申请的用户,根据其角色,享有角色指定的权限。系统管理员可以根据用户情况,赋予固定角色。系统管理员可制定新增用户指定角色以及分配权限。系统管理分为用户管理和角色管理。
9、(1)用户管理:管理系统用户,以及给系统用户分配角色和权限。(2)角色管理:角色管理是对每个角色进行查询,并分配相应权限,系统管理员可以根据角色权限,以及每个用户的允许查询权限为用户授权。3法人基础数据库设计法人基础数据库系统实现法人基础数据查询、统计和管理等功能的应用系统。系统主要功能包括:法人基础信息库系统法人基础信息管理应用系统功能模块列表:3.1 系统管理管理系统用户,以及给系统用户分配权限,其中包括用户角色管理、角色信息管理、部门账户管理、系统日志管理、系统网络布局查看以及部门交换频率查看。3.2 授权服务法人基础数据库系统设计原则遵循“谁提供谁维护”的原则,在中心形成的法人基础数据
10、库中的法人信息,对于公开开放的数据,不需要经过部门授权就可以查看,但对于部门未开放或者指定对象开放的数据,其他部门需要查询该部门的数据需要向数据提供部门提出申请,在申请通过后,才可在授权允许的范围内进行查询。授权服务主要功能包括:(1)数据授权管理:通过申请查看授权向数据提供部门提出查询申请,信息所属部门可以对其他部门对本部门信息提请的查看申请进行审批授权。可以设置授权的查看次数和有效期限,也可以永久授权。(2)数据交换申请:如果部门希望其他部门数据交换到本部门,通过数据交换申请向数据所属部门发送申请,申请得到授权后,通过自主交换的方式将数据交换到本部门的指定数据库内。(3)共享信息管理:部门
11、设置信息共享的级别,包括:授权开放、公众开放、部门开放等。同时通过信息管理日志查看用户的操作记录,以确保信息的安全。3.3 接收服务提供中心接收到各部门原始数据的查询功能,以及数据的清洗比对功能,具体功能包括:接收数据查看:查询中心接收到各部门发送的原始数据。清洗比对管理:管理和维护各个部门提供的原始数据的清洗和比对规则。可以增加、删除及保存规则。在系统后台会根据制定的规则来对接收的数据进行清洗和比对处理。清洗比对结果:可以根据清洗和比对批次、时间段等条件查询清洗和比对结果,如比对成功和不成功的数据量及所占比例,以及未匹配数据的详细数据和未匹配成功的原因(如企业注册号相同,企业名称不同等)。手
12、工比对管理:对于通过比对规则比对不一致的数据,通过手工比对管理进行手工比对,比对一致的,通过手工操作更新中心法人信息库,比对仍不一致的,反馈到未匹配数据表,通过交换平台反馈相关部门进行核查。手动比对管理主要解决数据比较特殊,无法制定通用比对规则的数据之间的比对。部门数据比对:进行部门间的数据比对,如工商有质监无的数据、工商有国税无、工商有地税无、质监有国税无、质监有社保无、国税有社保无等。3.4 信息服务根据查询条件或者组合条件查询法人信息,返回的结果为清洗比对后的准确数据,对于需要授权的数据,需要先通过授权服务进行授权申请。具体功能包括:(1)法人信息服务:查询法人信息,用户也可按条件查询。
13、(2)部门信息统计:查看各部门法人信息的数据总量。(3)法人码表信息:对于有国家标准的代码表,均会转换成国家标准的代码存入法人基础信息库,如行业类别、法定代表人性别等,对于部门专有的代码表,通过法人码表信息列出,供其他部门下载和使用。3.5 统计分析提供报表统计功能,结合各类基础信息,形成各类报表,提供多种统计功能,辅助领导决策。提供列表、折线图和柱状图等多种展示方式,统计内容主要包括:基础信息统计、行业类型统计、企业类型统计、部门数据差异统计等。4大数据处理平台4.1 大数据基础平台(1)架构设计SDCHadOOP大数据基础平台集工作台、工作流开发环境、任务调度、数据管理、数据检索、集群运维
14、管理系统和应用门户为一体,为用户提供基于大数据的基础解决方案,全面满足不同行业、不同人群对大数据的个性化要求。运维管理(SDCConso1e):SDCConso1e是大数据运维管理系统,为SDCHadoop供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理等。 SDCHadooP集成开发工具:提供了Web图形化方式操作,包括流程控制、作.业调度、数据管理、数据搜索、元数据管理、文件管理等功能。 HDFS:HadOoP分布式文件系统(HadOOPDiStribUtedFiIeSyStem),提供高吞吐量的数据访问,适合大规模数据集方
15、面的应用。 Zookeeper:提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。 HBase:提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。 E1asticsearch:提供了一个分布式多用户能力的全文搜索引擎。 ParqUet:面向分析型业务的列式存储格式。 YARN资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。 Tachyon:分布式内存文件系统,可以在集群里以访问内存的速度来访问存在tachyon里的文件。 Redis:提供基于内存的高性能分布式K-V缓存系统。 MaPRedUCe:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。 Spark:基于内存进行计算的分布式计算框架。 Strom:提供分布式、高容错的实时计算系统。 Hive:建立在Hadoop基础上的开源的数据仓库,提供类似SQ1的HiveQuery1anguage语言操作结构化数据存储服务和基本的数据分析服务。 Impa1a:提供SQ1语义,能查询存储在HadooP的HDFS和HBaSe中的PB级大数据。 SparkStreaming:建立在SPar