企业级数据中台架构方案.docx
《企业级数据中台架构方案.docx》由会员分享,可在线阅读,更多相关《企业级数据中台架构方案.docx(8页珍藏版)》请在第一文库网上搜索。
1、企业级数据中台架构方案一、什么是数据中台数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构建数据生产一消费一再生的闭环。二、数据中台功能架构数据中台建设是一个宏大的工程,涉及整体规划、组螭建、中台落地与运营等方方面面的工作,本文重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产房口数据应用层。2
2、.1.工具平台层工具平台层是数据中台的载体包含大数据处理的基础能力技术如集数据采集、数据存储、数据计算、数据安全等于一个的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发工具、数据联通工具、标签计算工具、算法平台工具、辘服务工具及自助分析工具。以上工具集基本覆盖了数据中台的数据加工过程。(1)数据开发平台大数据的4V(Vo1ume数据量大、Variety类型繁多、Ve1ocity速度快效率高、Va1ue价值密度低)特征决定了大数据处理是一个复杂的工程。建设数据中台需要搭建数据中台的基建工具,要满足各种结构化、非结构化数据的采集、存储与处理,要4艮据场景处理离绩口实时数据的计算与
3、存储,要将一个个数据处理任务串联起来以保障数据的运转能赋能到业务XiXi麻。(2)数据资产管理数据中台建设的成功与否,与数据资产是否管理有序有直接关系。数据中台是需要持续运营的,随着时间的推移,数据不断涌人数据中台,如果没有一套井然有序的资产平台来进行管理,后果将不堪设想。数据资产管理工具既能帮助企业合理评估、规范治理信息资产,又可以发挥数据资产价值并促进数据资产持续增值。对于数据资产管理,不推荐事后管理,而要与数据研发的过程联动。也就是说,当数据经过数据开发平台加工的链路时,数据资产管理平台就已经无声无息地介入了。数据资产管理的首要任务是管理好进入数据中台的元数据,这里的元数据包括数据源、构
4、建的各种模型、通过模型拆解出来的指标与标签。有序管理这些数据资产的元数据是前提条件,只有做好了这一步,才能继续对数据流向的追溯,对指标、标签体系的生命可期进行管理。(3)标签工厂标签工厂又称标签平台,标签建设是数据中台走向数据业务化的关键步骤,严格来说标签工厂也属于数据开发平台的一部分。一个强大的标签工厂是数据中台价值体现的有力保障,标签的使用场景丰富,标签与业务结合得非常紧密。标签工厂致力于屏蔽底层复杂的大数据框架,面向普通开发人员、数据分析师、运营人员提供友好的界面交互配置,完成标签的全生命周期管理;同时,对上层业务系统提供自身API能力,与各业务系统形成数据闭环。标签工厂按功能一般分为两
5、部分:底层的标签计算引擎与上层的标签配置与管理门户。标签计算引擎一般会使用M叩RedUCe、SparkxF1ink等大数据计算框架,而计算后的标签存储可采用E1asticsearch或者HBase,这样存储的好处是便于快速检索。而标签配置与管理门户则支持通过配置标签规则提交到标签计算引擎,就能定时算出所需要的标签。标签配置和官理户还提供标准的标签服务申请与调用。通过标签工厂,数据中口团队可减少大量的数据开发工作。(4) ID-MappingID-M叩Ping又称ID打通工具,是辘中台建设的可选项,可选不代表不重要,在一些多渠道、多触点的新零售企业,离开这个工具,数据质量将大打折扣。ID-Map
6、ping功能的建设一般会利用强大的图计算功能,通过两两之间的关系实现互通,目动高效班各关联的身份映射为同一身份即唯一ID的数据工具。它能大幅度降低处理成本,提高效率,挖掘更多用户信息,形成更完整的画像,大大利于数字营销的推进。另外,ID-M叩Ping工具也可用于企业主数据治理。5)机器学习平台在整个机器学习的工作流中,模型训练的代码开发只是其中一部分。除此之外,数据准备、数据清洗、数据标注、特征提取、超参数的选择与优化、训练任务的监控、模型的发布与集成、日志的回收等,都是流程中不可或缺的部分。机器学习平台支持训练数据的高质量采集与高效标注,内置预训练模型,封装机器学习算法,通过可视化拖曳实现模
7、型训练,支持从数据处理、模型训练、模型部署为在线预测服务,通过RESTfuIAPI的形式与业务应用集成实现预测打通机器学习全链路,帮助企业更好地完成传统机器学习和深度学习的落地。(6)统一数据服务统一数据服务旨在为企业搭建统一的数据服务门户,帮助企业提升数据资产的价值,同时保证数据的可靠性、安全性和有效性。统一数据服务支持通过界面配置的方式构建API和数据服务接口,以满足不同数据的使用场景,同时降氐数据的开发门槛,帮助企业实现数据应用价值最大化。统T据服务作为唯一的数据服务出口,实现了数据的统一市场化管理,在有效降氐数据开放门槛的同时,保障了数据开放的安全。4.2 .数据资产层数据资产层是数据
8、中台的核心层,它依托于工具平台层具体内容因企业的业务与行业而异,但总体来讲,可以划分为主题域模型区、标签模型区和算法模型区(1)主题域模型主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影啊地被包含进来。(2)标签模型标签模型的设计与主题域模型方法大同小异,同样需要给日业务过程进行设计,需要充分理解业务讨程。标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 企业级 数据 架构 方案