云计算技术的电力大数据预处理属性约简方法研究.docx
《云计算技术的电力大数据预处理属性约简方法研究.docx》由会员分享,可在线阅读,更多相关《云计算技术的电力大数据预处理属性约简方法研究.docx(4页珍藏版)》请在第一文库网上搜索。
1、云计算技术的电力大数据预处理属性约简方法研究关键词:云计算;电力大数据;预处理;约简;HadOC)P平台;MaPRed1ICe模型摘要云计算数据处理计算令电力大数据的处理智能化以及快速化,云计算技术将变化复杂、数量大、类型多电力数据虚拟化、池化,云计算数据处理中心成为了当下支撑电力大数据的重要技术。论文基于云计算技术背景,提出了电力大数据预处理约简,针对该理论进行简要概述,并结合M叩RedUCe模型,实施了电力大数据月处理约简应用。最后,在Had。0P平台上对电网故障诊断表和风电实测数据进行属性约简,实验结果表明,该方法有效可行,并具有较好的加速比和可扩展性,适用于电力大数据预处理属性约简。1
2、引言电力行业是国民经济的基础支撑行业,电力行业信息化和电力生产自动化的发展与应用在电力企业产生了海量的数据。随着物联网、云计算、电子商务等技术在电力行业的应用,电力企业数据中心数据量从几百TB快速增长到几千TB,数据增长速度越来越快,电力行业步入大数据时代1。电力大数据具有数据量大、类型多、变化快、价值高等大数据普遍特性,深入挖掘电力大数据蕴含的价值,对于电力企业经营管理、电力生产、社会能源节约都具有重要的现实意义。属性约简可以减少数据维数,减少不必要的存储和不相关的输入,显著提高电力数据预处理的效率。面对呈几何级增加的海量电力大数据,电力系统中的计算机面临着存储资源和计算资源的瓶颈,靠单纯提
3、高软硬件水平也已很难满足快速增长的需求。作为新一代并行编程系统,MapReduce利用其特有的弹性分布式数据集MP_P0SRS1在现有的软硬件基础上可以很好地并行处理大规模的电力数据集。本文以某风电场海量短期功率预测数据为例,并将MapReduCe引入到知识约简算法中来。由于功率预测表中数据大多属性是连续型的,必须将连续属性离散化,由于知识的割裂和离散化技术本身的特点,有可能会丢失一些信息2。为了保证知识的完整性,笔者深入研究了MapReduce编程模型,对粗糙集相对正域理论及现有的知识约简算法进行剖析,利用相对正域的性质,给出了电力大数据预处理属性约简中的相关定义和定理,结合MapReduc
4、e模型设计了并行计算电力大数据集相对正域势的算法MP_P0SRS1并利用Had00P平台实现了云环境下的电力大数据预处理属性约简算法。实验结果表明,该算法不仅能够高效地进行电力大数据集属性约简计算,而且具有较好的可扩展性。2电力知识表达系统相关定义及定理Hadp是由Goog1e公司提出的Map-Reduce并行编程框架的开源实现。MapReduce程序由Map函数和Reduce函数组成,Map函数每次将一个输入(key,va1ue)对转换为一组中间结果(key,va1ue)对;Reduce函数对key相同的一组VaIUe进行处理,产生最终结果并写入分布式文件系统HDFSoMapReduce这种
5、比较高效的并行编程模型,就能够很好的解决电力大数据预处理属性约简问题,如下,便是其中较具代表性的定义和定理4。图1M叩RedUCe运行架构图2.1定义定义1:假设电力知识表达系统为决策信息表S,S=(U,AJy),表中,U为对象集合,A=CUD,C为条件属性集,D为决策属性集,V为属性值集合,f为信息函数,并明确对象属性值5。定义2:令P,QA,PCQ=0,P是Q的正域,记以3(。)=乙,XWUQ表示P中所包含的元素个数C2.2定理定理1:假设电力知识表达系统S=(U,AJ,V),P,QeA,PCQ=0,RjP,Count(pos1i()-Count(posp()WsR(Q)=WSP(Q)的充
6、要条件;必要性证明:因为PoSR=PoSP(Q),所以Q的P正域与Q的正域R相同,Count(posR()=Count(posp();充分性证明:通过反证法进行证明,即设po%(Q)=po(。)不成立,而因为RqP,所以WSR(Q)qpoSp(Q),而因为pos(Q)=posp(Q)不成立,贝IJCount(pos1i()posc(D),由定理1可知Count(pos(D)jCountposc(D)0充分性证明因为Count(PoSC&(。)Coimi(posc(D)1由定理1可知POSC.0(D)posc(D);可知a为核属性。以上为MaPRedUCe并行编程模型中的部分定义和定理,从中能够
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 计算 技术 电力 数据 预处理 属性 方法 研究