基于Hive数据仓库的标签画像实战.docx
《基于Hive数据仓库的标签画像实战.docx》由会员分享,可在线阅读,更多相关《基于Hive数据仓库的标签画像实战.docx(12页珍藏版)》请在第一文库网上搜索。
1、基于Hive数据仓库的标签画像实战导读:本期内容主要介绍使用Hive作为数据仓库的应用场景时,相应的库表结构如何设计。Hive数据仓库建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。”数据仓库之父” W.H.Inmon在Building the Data Warehouse(中文版数据仓库(原书第4版)一书中定义数据仓库是“一个面向主题的、集成的、非易失的、随时间变化的、用来支持管理人员决策的数据集合”。广
2、告数据仓库(原书第4版)作者:美William H.Inmon京东购买面向上题:业务数据库中的数据主:要针对事务处理,各个业务系统之间是相互分离的,而数据仓库中的数据是按照一定主题进行组织的。集成:数据仓库中存储的数据是从业务数据库中提取出来的,但并不是对原有数据的简单复制,而是经过了抽取、清理、转换(ETL)等工作。业务数据库记录的是每一项业务处理的流水账。这些数据不适合进行分析处理,进入数据仓库之前需要经过一系列计算,同时抛弃一些无关分析处理的数据。非易失:业务数据库中一般只存储短期数据,因此其数据是不稳定的,记录的是系统中数据变化的瞬态。数据仓库中的数据大多表示过去某一时刻的数据,主要用
3、于查询、分析,不像业务系统中的数据库一样经常修改,一般数据仓库构建完成后主要用于访问,不进行修改和删除。随时间变化:数据仓库关注的是历史数据,按时间顺序定期从业务库和日志库里面载入新的数据进行追加,带有时间属性。数据抽取到数据仓库的流程如下图所示。日电理点8?如在数据仓库建模的过程中,主要涉及事实表和维度表的建模开发:事实表主要围绕业务过程设计,就应用场景来看主要包括事务事实表,周期快照事实表和累计快照事实表:事务事实表:用于描述业务过程,按业务过程的单一性或多业务过程可进一步分为单事务事实表和多事务事实表。其中单事务事实表分别记录每个业务过程,如下单业务记入下单事实表,支付业务记入支付事实表
4、。多事务事实表在同一个表中包含了不同业务过程,如下单、支付、签收等业务过程记录在一张表中,通过新增字段来判断属于哪一个业务过程。当不同业务过程有着相似性时可考虑将多业务过程放到多事务事实表中。周期快照事实表:在一个确定的时间间隔内对业务状态进行度量。例如查看一个用户的近1年付款金额、近1年购物次数、近3()日登录天数等。累计快照事实表:用于查看不同事件之间的时间间隔,例如分析用户从购买到支付的时长、从下单到订单完结的时长等。一般适用于有明确时间周期的业务过程。数据仓库建模事实表维度表单事务事实表事务事实表0/: 多事务事实表周期快照事实表累计快照事实表e缓慢变化维维度表主要用于对事实属性的各个
5、方面描述,例如,商品维度包括商品的价格、折扣、品牌、原厂家、型号等方面信息。维度表开发的过程中,经常会遇到维度缓慢变化的情况,对于缓慢变化维一般会采用:重写维度值,对历史数据进行覆盖;保留多条记录,通过插入维度列字段加以区分;开发日期分区表,每日分区数据记录当日维度的属性;开发拉链表按时间变化进行全量存储等方式进行处理。在画像系统中主要使用Hive作为数据仓库,开发相应的维度表和事实表来存储标签、人群、应用到服务层的相关数据。分区存储如果将用户标签开发成一张大的宽表,在这张宽表下放几十种类型标签,那么每天该画像宽表的ETL作业将会花费很长时间,而且不便于向这张宽表中新增标签类型。要解决这种ET
6、L花费时间较长的问题,可以从以下几个方面着手:将数据分区存储,分别执行作业;标签脚本性能调优;基于一些标签共同的数据来源开发中间表。下面介绍一种用户标签分表、分区存储的解决方案。根据标签指标体系的人口属性、行为属性、用户消费、风险控制、社交属性等维度分别建立对应的标签表进行分表存储对应的标签数据。如下图所示。人口属性表:dw.userprofile_attritube_all行为属性表:dw.userprofile_action_all用户消费表:dw.userprofile_consume_all风险控制表:dw.userprofile_riskmanage_all社交属性表:dw.user
7、profile_social_all用户标签的ETLdw.userprofileactionalldw.userprofilcriskmanagcall例如创建用户的人口属性宽表:字段字段定义示例备注userid用户id44463729用户没被打上该标签.数值为0.如果仃勘定数值的该段打储乓体数值(如件龄标越存放艮体年龄),如果没有具体数值则放数俏1 (如性别标签存储1)ATTRITLBE; U 01 001刃性1ATTR1TLBE U 01 002女性0ATTRITLBEU 02 OOI高活跃用户1ATTRITCBE U 02 002中等活欧用户0字段字段定义示例备注ATTR1TUBE U
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 Hive 数据仓库 标签 画像 实战