小米数据生产平台的产品设计方法与实践.docx
《小米数据生产平台的产品设计方法与实践.docx》由会员分享,可在线阅读,更多相关《小米数据生产平台的产品设计方法与实践.docx(27页珍藏版)》请在第一文库网上搜索。
1、导读本文将分享小米数据生产平台的设计与实践。文章将围绕下面四点展开:O1数据生命周期全流程介绍首先,从产品经理的角度,给大家用浅显易懂的方式介绍一下数据的生命周期全流程是什么。一收工存愉处理应用数据生产链路数据从生产到应用全流程大致可以分为5个步骤,首先是数据的产生,接下来对产生的数据进行收集,再找个容器存储起来,存储后进行处理加工,最后把数据投入应用。大部分数据产品都对应这五个环节。而今天要介绍的小米数据生产平台重点在前四个环节,我们将前面四个环节统称为数据生产链路。数据生产的过程,可以用水的产生到应用做一个类比。首先,水产生于雨水、以及江河湖海中自然产生的源源不断的水资源(产生),因为我们
2、需要利用水资源,所以人为修建堤坝、水渠、水库来将这些水分流收集并且存储起来(收集&存储)。希望这些水可以为我所用,就需要一些处理流程,进行水净化、过滤、消毒、去污等一系列操作(处理),最终不同处理方式的水可以分别用于饮用水、灌溉、工业生产生活等场景中(应用)。数据的流程和水的生命流程是类似的。生活中的行为会产生各种各样的数据,互联网时代,线上数据较为常见,例如使用手机、电脑、手表等电子用品,人们在以上的终端进行各种操作,就会产生行为数据;另一类是和生活更密切相关的线下数据,例如逛商店、做运动、听歌、拍照、录视频等线下实体行为,同样会产生数据。3.数据的收集线上行为采集(端上) 客户端:Web.
3、AndOrkI、iOS、Windows 服务端:日志、消息线下行为采集(物联网) 硬件联网:Wi-Fi、传感器、摄像头等等 传统:问卷、赞记外部数据采集-爬虫;A业务系统数据同步-跨源MySq1tOHive.异构MQtoHive数据产生后,根据不同的终端或者维度,进行数据收集。数据的收集是将不同的业务系统、终端、源头的数据实现互联互通。线上数据采集分为客户端和服务端,客户端与用户联系更紧密,常见的有Web端、网页端、安卓和苹果手机的操作系统等。线下会通过物联网工具去进行信息的采集,例如,摄像头、传感器或者Wi-Fio另外一种传统途径,例如在之前特殊时期,会通过线下问卷或者表格的方式去登记信息,
4、也是一种数据收集过程。第三类是较为特殊的数据收集过程,通过爬虫采集外部数据,这类数据不是直接产生,而是在合法合规的前提下爬取已有的数据。另外,业务系统的跨源同步,也可以认为是数据收集的过程,把不同的数据类型汇集到一个更易于应用的大数据系统中。4.数据的存储数据的收集ataFurt存储数据存储容器的选择也类似故露格式/结构散糖大小/条数查询/犷晨/并发浮储/计Ji成本我们在日常生活中,选择存储容器的时候,会考虑很多因素,例如:被存储物件的形状、样式、形态、规模和使用场景,常用的物品希望存得近一点,成本也需要考虑,要权衡花费多少性价比最高。数据存储容器的选择也是类似的逻辑,数据的结构以及存储的格式
5、,数据大小和条数,在使用场景中,希望是查询性能更高,还是可扩展性更好,还是并发度更高,在数据的存储和计算过程中有多少损耗,还有技术上的考量等等,决定了我们用什么存储系统来存数据最合适。数据的存储存储类型举例关系数据库Orac1e,MySq1SQ1Sever,Greenp1umNoSQI存储卜Base、Reds.ES.MongoDB网络及消息队列Kafka、Ta1os.RMQ、Http文件系统HDFS、FTP、CSV.TXKExce1大数据存储Hive.Iceberg.Ho1ogres.Doris根据不同的数据结构、规模、使用场景,会选择不同的存储类型。大致可以分为五类:关系型数据库、NOSQ1
6、存储、网络及消息队列、文件系统和大数据存储。图中高亮出来的是常见的存储方式,小米用的是Iceberg和Ho1ogres05.数据的处理处理过程关键内容开发方式对数据抽取、转换、加载(ET1),分层建设在各个环节对数据进行清洗一般分为离线开发、实时开发、算法开发存储完成之后进入到数据加工环节,它是将原始的、堆砌的数据进行数据资产建设,加工后服务于数据应用场景,使其产生业务价值的过程。处理过程分为三个方向:数据ET1和分层建设、对关键内容进行清洗、用不同的数据处理方式进行计算ET1SQ1:结构化的强询语句ET1:源端-抽取-转帙-加载-目标所有关系型数据库的公共语言;用于存取数据以及直询、更新和管
7、理关系敷据库系统数仓分层:归纳整理、化繁为商、减少S3.提升效率ET1(Extraction-Transformation-1oading)z中文名为数据抽取,转换和加载的组合,利用SQ1语句,所有关系型数据库的公共语句,将数据抽取出来,经过格式转换与清洗,再加载到目标库中。形成数仓分层的表,对数据进行归纳整理,简化数据,去重,提升数据使用效率。这是ET1的过程及产出价值。清洗4计M存储五二处理应用原始数据清洗后的数据*1B提到“清洗,比如洗衣服一般是在做什么?1、洗掉脏东西2、去除多余3、补好缺漏4、晒干整理数据清洗的核心:问题数据的补充、调整冗余数据的查重、映射数据的整理、统一可以联想到生
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 小米 数据 生产 平台 产品设计 方法 实践