《电力大数据建设方案.docx》由会员分享,可在线阅读,更多相关《电力大数据建设方案.docx(49页珍藏版)》请在第一文库网上搜索。
1、电力大数据建设方案目录1背景51.1 建设背景(国家)51.2 建设背景(地电/发电企业)52 建设目标53 建设原则和策略74 建设方案84.1 技术方案84.1.1 总体架构84.1.2 技术架构94.1.3 数据架构104.1.4 基础平台114.1.4.1 CDH114.1.4.2 MPP124.2 建设内容144.2.1数据模型管理144.2.1.1元数据管理144.2.1.2血缘关系154.2.1.3元数据自动变更164.2.2数据资产管理164.2.2.1数据资产目录164.2.2.2模型溯源分析164.2.2.3系统数据接口164.2.2.4数据负面清单174.2.3数据质量管
2、理174.2.3.1规则库管理174.2.3.2规则配置184.2.3.3规则执行184.2.3.4质量报告184. 2.4数据服务开发184.1.1.1 数据服务监控184.1.1.2 数据服务目录管理194.1.1.3 数据服务配置194.1.1.4 服务市场214.1.1.5 应用管理214.1.1.6 申请管理224.1.1.7 审核管理224. 2.5非结构化数据234.1.1.1 文件目录管理234.1.1.2 文件批量上传244.1.1.3 文件管理244.1.1.4 文件查询254.1.1.5 数据统计264.1.1.6 智能搜索264.1.1.7 词库管理274.1.1.8
3、标签定义284.1.1.9 同步日志284.2.6 数据分析组件284.2.7 机器学习平台304. 2.7.1可视化建模305. 2.7.2模型管控316. 2.7.3算法组件314.2.8 数字产品超市324. 2.8.1数据服务目录325. 2.8.2数据服务市场324.2.9 电力数字化产品334.2.9.1大数据计算类产品334.2.9.2数据挖掘分析类产品344.2.10平台集成374.2.10.1数据采集374.2.10.2数据清洗384.2.10.3任务调度385 大数据平台实施方案395.1 总体规划395.2 第一阶段建设范围395.3 第二阶段建设范围405.4 第三阶段
4、建设范围416 软硬件部署方案416.1 总体规划设计416.2 物理拓扑规划436.2.1 管理区规划说明436.2.2 数据区规划说明436.3 软件组件部署规划436.3.1 大数据基础软件436.3.1.1 HadOOP软件436.3.1.2 MPP软件466.3.1.3 关系数据库软件476.3.2 大数据应用开发软件476.4 服务器角色与命名规划476.5 IP地址规划481背景.建设背景(国家)近年随着国家新型基础设施建设战略发布,重点发力于科技端的基础设施建设,尤其在大数据中心、人工智能、工业互联网等领域以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需
5、要,提供数字转型、智能升级、融合创新等服务的基础设施体系。电网运行管理系统于2015年开展建设,至今各功能模块逐步完成建设并正式上线应用,主要负责业务协调、流程管理类工作,主要的功能模块分为并网管理类、运行风险管理类、运行计划管理类、运行控制管理类、运行评价与改进类、二次系统管理类等,基本涵盖了调度域全部的业务管理工作。目前系统运行良好,与多个横向业务应用系统协调应用。运行监视和控制类工作主要由电网运行控制系统负责,从2004年至今,完成了省级主站和地级主站系统的建设。主要的功能模块分为稳态建设类、动态监视类、环境监视类、在线预警类、在线计算类等。1.2建设背景(地电/发电企业)需根据地点/发
6、电企业自身情况补充2建设目标以需求为导向,重点提升数据资产管理能力、数据接入整合能力、数据共享分析能力、基础组件支撑能力四个方面能力,有效支撑营配贯通、多维精益管理、数字化审计、智慧供应链、供电服务指挥、网上电网、基建全过程数字化等业务开展。基于大数据平台的数据价值共享平台建设涵盖数据资产管理、数字产品超市、数据质量治理、数据分析组件、数据服务开发五方面。以“数据透明”、“数据准确”、“数据共享”为基础,发挥大数据平台价值,支撑各专业应用构建。通过建立规范的数据资产目录、实现数据的快速检索,解决数据“不知”的问题;明确数据存储及数据交换标准,提升数据使用质量,解决使用“不对”数据的问题;通过数
7、据融合共享体系的建设,实现数据的跨部门共享,解决数据“不给”的问题,构建数据资产透明可控的大数据平台。具体包括以下方面:1)基础组件支撑能力:开展基础组件支撑能力提升,优化完善大数据平台支撑平台技术架构,提升基础平台技术支撑能力。2)数据接入整合能力:开展数据接入整合能力提升工作,实现多维度、多类型数据的高效汇集,支撑公司数据融通共享、分析挖掘和数据运营。3)全面掌握数据资产现状:对数据家当进行全面盘点,形成数据地图,为业务应用和数据获取夯实基础。从资产化管理和展示数据的角度出发,数据地图作为数据资产盘点的输出物之一,帮助业务人员快速精确查找他们想要的数据。其次,数据地图作为企业数据的全盘映射
8、,帮助数据开发者和数据使用者了解数据,并成为对数据资产管理进行有效监控的手段。4)提升数据质量:通过建立一套切实可行的数据质量监控体系,设计数据质量稽核规则,加强从数据源头控制数据质量,形成覆盖数据全生命周期的数据质量管理,实现数据向优质资产的转变。5)数据共享分析能力:开展数据共享分析能力提升,实现跨专业数据共享分析服务统一构建,支撑跨部门、跨层级数据共享分析应用,逐步积累沉淀形成共享数据分析服务。6)数据价值持续释放:存储和管理数据的最终目的是实现数据的价值,数据资产化将数据作为一项资产,并通过一个持续和动态的全生命周期管理过程,使数据资产能够为企业数字化转型提供源源不断的动力。从企业高管
9、到业务人员及技术人员,全员都要以持续释放数据价值为理念来重视数据资源管理工作,建设现代化数据平台、引入智能化技术,确保数据资产管理系统平台持续、健康地为数据资产管理体系服务。3建设原则和策略大数据平台的建设既要充分考虑当前与各系统联动分析的现实需要,也要为今后的系统升级、数据整合等打好技术基础。1)先进实用,注重实效系统建设应尽可能采用先进的技术和产品,确保系统的高可用性、高性能、高可靠、高安全和可扩充性。同时要以实用为目标,针对实际问题,符合实际情况,解决实际问题,追求实际效果。2)规范性包括业务规范、开发规范、术语规范和数据规范等方面。应用系统的开发要符合软件设计开发的标准与规范,在开发过
10、程中采用的技术和工具应当尽量符合工业标准,在没有可依据的工业标准的情况下,应采用事实标准或主流的开发技术;在应用系统中使用到的电力行业的术语等应符合国家及行业标准;数据流转、处理按照统一规范进行。3)充分利用原有资源,避免重复投资在项目建设中应充分利用原有计算机、网络、数据等系统资源,融合已有电力应用系统,节省系统建设投资。注重总体规划,加强资源整合,巩固和发展以数据挖掘为主导的信息化持续发展局面。抓住关系全局的重大应用,通过应用推进信息化。避免盲目跟风,把握信息化发展的主动权。4)安全性和可靠性对主要数据加密,并运用先进的访问控制、身份认证等技术防止非法用户入侵;保证系统在异常情况下的正确可
11、靠运行。对于机密数据的传输,要求能保证的传输性安全。5)数据的完整性和一致性数据在各个应用系统中的采集、存储、传输和处理保持完整和一致。数据能实时传输,避免因传输延时造成数据不一致现象。4建设方案4.1 技术方案4.1.1 总体架构建立一套统一的系统运行领域大数据基础设施,为大数据平台、智能应用和综合展示等提供软硬件、网络和安防支撑环境。构建系统运行领域大数据中心,完成EMS和OMS等系统运行数据、气象数据、外部数据等多源数据采集清洗,实现跨专业系统运行领域业务数据融合。建立数据标准体系、唯一准确数据来源,提供数据综合治理和数据共享等服务。搭建大数据智能应用服务支撑平台,实现快速开发平台、智能
12、报表管理平台等支撑服务。开展大数据智能化生态应用研究,结合生产运行应用场景,研究主配网综合停电数据分析、负荷精准预测分析、稳定断面负载率智能自动分析和线路故隙跳闸智能告警等典型智能应用,打造一个大数据智能应用生态价值链。建成综合展示平台,实现公司运营、系统运行、日常生产等不同维度和PC、大屏、移动等不同终端的可视化展示,贯通网省地数据,完成中心领导、部门领导和专责不同层面按需自定义动态综合展示。4.1.2 技术架构为应对电网大数据中心急剧增多的海量数据,及提升系统的处理效率、缩短运算时间及应用响应时间、提升用户体验,项目采用大数据技术框架。大数据技术具有分布式及并行化等关键技术特征。大数据系统
13、是由多个分布的节点组合而成的集群通过网络连接提供服务及能力,以群体合力的方式提供服务及动力。由于具备分布式特征,大数据系统从机制上便于进行集群横向扩展,规模可以动态伸缩,满足应用和用户规模增长的需要。在分布式的基础上,集群各节点均可以提供服务能力以并行处理的模式提供能力,具备高性能高可用的特征。分布式文件存储系统提供无限存储能力,很好适应业务数据的快速增长,而且支持存储多种非结构化格式数据,并提供高冗余的存储能力,提高数据安全及访问能力。分布式并行处理系统将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务的计算机系统。本
14、系统采用分布式并行处理系统提高数据处理效能、提升客户感知。模型统一容器事件发电设备保护设备共享层输变电设备自动化设备设备监控稳控装置类历史溯源长期存储,追溯数据来源,屏蔽对源系统的影响跟据数据实时性要求,采用不同的技术,确保数据及时性及一致性保障数据唯性标准转换编码统一、语义统一、字段长度、类型、显纲等统一,保障数据一致性大数据平台以电网容器、设备、外部环境等作为数据对象,采用维度建模方法,构建面向多业务主题的分层架构体系,提供元数据维护、查看功能,能够直观展示数据仓库的结构及版本信息。数据仓库结构维护实现大数据平台数据仓库的整体分层架构设计的维护与展示,提供数据层级关系及层级内数据库信息的清
15、晰、直观展示,包括源数据层、同步层、统一层、分析层等功能。源数据层:数据源来自多系统的数据源,在大数据平台中包括但不仅限于OMS、EMS、WAMS、TMR、气象、配电自动化等系统产生的数据。同步层:作为源端系统1:1的暂存层,为统一层数据的清洗、融合准备好生数据。统一层:按照电网对象、数据主题的维度对同步层数据重新组织,同时对数据进行加工处理转换为熟数据,形成统一、规范、标签化的数据集合。分析层:面向各个应用,抽取统一层中公共的业务数据进入分析层,根据数据和应用特性建立分析层数据库表。分析层直接面向分析和BI展示,表设计上采用业务定制化特性。4.1.4基础平台采取CDH(C1oUderaSDistributionInc1udingApacheHadoop,简称CDH)+MPP(Massive1yPara11e1Processing,大规模并行计算)数据库的混搭架构。通过一系列的ET1工具和工作流管理界面,