数仓链路保障体系与数据测试方法经验分享.docx
《数仓链路保障体系与数据测试方法经验分享.docx》由会员分享,可在线阅读,更多相关《数仓链路保障体系与数据测试方法经验分享.docx(20页珍藏版)》请在第一文库网上搜索。
1、数仓链路保障体系与数据测试方法经验分享导读有赞数据报表中心为商家提供了丰富的数据指标,包括30+页面,100+数据报表以及400+不同类型的数据指标,它们帮助商家更合理、科学地运营店铺,同时也直接提供分析决策方法供商家使用。并且,每天在跑的底层任务和涉及的数据表已经达到千级别。面对如此庞大的数据体系,作为测试如何制定质量保障策略呢?这篇文章将从:1有赞数据链路、2数据层测试、3 .应用层测试、4.后续规划这四个方面展开。一、有赞数据链路1、数据链路介绍首先介绍有赞的数据总体架构图:散据网关总体架构图数据统一服务点质量保位应用存储数据仓库9点质量保H基础平台自顶向下可以大致划分为应用服务层、数据
2、网关层、应用存储层、数据仓库,并且作业开发、元数据管理等平台为数据计算、任务调度以及数据查询提供了基础能力。以上对整体架构做了初步的介绍,对于质量把控来说,最核心的两个部分是:数据仓库以及数据应用部分。因为这两部分属于数据链路中的核心环节,相对于其他层级而言,日常改动也更为频繁,出现问题的风险也比较大。二、数据层测试1、整体概览首先,针对数据层的质量保障,可以分成三个方面:数据及时性、完整性、准确性。数据层测试数据准确性数据及时性数据完整性自身检查code review2、数据及时性数据及时性,顾名思义就是测试数据需要按时产出。及时性重点关注的三个要素是:定时调度时间、优先级以及数据deadl
3、ine。其中任务的优先级决定了它获取数据计算资源的多少,影响了任务执行时长。数据deadline则是数据最晚产出时间的统一标准,需要严格遵守。这三要素中,属于“普世规则”且在质量保障阶段需要重点关注的是:数据deadline。那么我们基于数据deadline,针对及时性的保障策略就可分为两种:监控离线数据任务是否执行结束。这种方式依赖于有赞作业开发平台的监控告警,若数据任务在deadline时间点未执行完成,则会有邮件、企微、电话等告警形式,通知到相应人员。IS止WW: 2021-Q5-13 00:00:00 J 2036-01-01 00:00:00.v7点作为统一散据产出deadline,
4、 4点+ 180分钟;7点授督用户:件 X X 电恬 X失K发量:件 wa X 电话XgWIseg*O 180分售%逑道x vo$.data0.teamTotalPvvo$.data0.orderUvv0响应断言:$.data0.orderAmountv0$.dataO.payUvvo$.data0.payAmountvo访客数0O浏览量0O下单人数0O下单金额0n支付人数0Q支付金额0O断言判断数据指标0,若等于0,则表示数据未产出其次我们可以关注失败、重试次数,当任务执行过程中出现多次失败、重试的异常情况,nJ以抛出告警让相关人员感知。这部分的告警是对deadline告警的补充,目前在有赞
5、作.业开发平台上也有功能集成。3、数据完整性数据完整性,顾名思义看数据是不是全,重点评估两点:数据不多、数据不少。数据不多:一般是检查全表数据、重要枚举值,看数据有没有多余、重复或者数据主键是否唯一。数据不少:一般是检查全表数据、重要字段(比如主键字段、枚举值、日期等),看字段的数值是否为空、为null等。可见数据完整性和业务本身关联度没有那么密切,更多的是数仓表的通用内容校验。所以从一些基础维度,我们可以将测试重点拆成表级别、字段级别两个方向。数据完整性袤级别袤行数袅大小分区行数分区大小字段级别非空唯一枚举数据有效性表级别完整性:全表维度,通过查看全表的总行数/表大小,若出现表总行数/总大小
6、不变或下降,说明表数据可能出现了问题。分区维度,通过查看当日分区表的数据行数/大小,若和之前分区相比差异太大(偏大或偏小),说明表数据可能出现了问题。目前有赞元数据管理平台已集成相关数据视图:字段含义历史趋势数据欣堡变更记录敬据成本质量提升形态报告30 天更新时刻:每日首次更新总行敬增量行效字段级别完整性:唯一性判断:保证主键或某些字段的唯一性,防止数据重复导致和其他表join之后数据翻倍,导致最终统计数据偏大。比如判断ods层订单表中的订单号是否唯一,编写sql:select count(ordcr_no), count (distinct order_no) from ods. xx_or
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数仓链路 保障体系 数据 测试 方法 经验 分享
