从应用视角浅谈外部数据质量评价.docx
《从应用视角浅谈外部数据质量评价.docx》由会员分享,可在线阅读,更多相关《从应用视角浅谈外部数据质量评价.docx(11页珍藏版)》请在第一文库网上搜索。
1、银行业外部数据来源众多,对于外部数据的选择缺少统一的量化评价标准,同时数据质量评价和业务场景的结合也并不紧密。针对外部数据的质量问题,本文提出了一种基于先验和后验维度的外部数据质量综合评价模型。通过产业链拓客挖掘模型应用实例,演示先验数据质量维度的实际衡量过程和后验维度中结合业务的自适应调整过程,揭示了外部数据质量综合评价模型在具体业务场景的普适性。一、课题研究背景2023年4月,国家印发关于构建更加完善的要素市场化配置体制机制的意见,提出数据是与资本、劳动力、土地、技术并列的生产要素,明确了数据在“数字中国”建设中的重要地位。2023年7月,中共中央国务院关于支持浦东新区高水平改革开放打造社
2、会主义现代化建设引领区的意见中提出在浦东新区建设上海数据交易所的设想;到2023年月,该设想已经得到落地实践,上海数据交易所成立当日完成数据产品挂牌20个,涉及通信、金融、交通等八大类。随着越来越多的数据进入规范化的数据市场,如何客观合理地衡量数据质量是数据资产化进程中必须要明确的问题。针对数据质量评价体系,国内外专家学者主要从四个视角展开研究,分别是产品、平台、用户以及生命周期。产品视角从数据自身的质量出发,考虑其各质量维度的表现,但容易忽视用户的使用需求;平台视角从管理角度出发,评价存储数据对平台性能的影响,但会因数据粒度过大而缺乏可靠性;用户视角从用户的实际使用需求及主观感受出发,评价数
3、据的可用程度,但缺乏客观性;生命周期视角对数据生产、存储、检索、使用等环节进行评估,评价较为全面但存在阶段孤立、难以追踪等问题。二、数据质量评价体系对于外部数据,银行需要建立一套完整的数据质量评价体系来决定是否购买并长期使用。针对目前研究中存在的一些问题,本文从先验数据质量和后验数据质量两个维度构建了一套完整的评价体系,前者主要评估数据的内在质量,而后者主要对数据的可用性及业务效益进行评估。1 .先验数据质量维度先验数据质量维度包括完整性、准确性、唯一性、规范性、及时性和一致性(如图1所示)。其中,完整性用于度量数据的缺失程度,会对数据值、记录、属性或数据模型的完整性进行分析;准确性用于度量数
4、据的准确程度,判断数据值是否出现异常或者是否符合一般的业务逻辑;唯一性用于度量数据的重复程度,判断数据表中是否存在重复的主键及记录或含义相同的属性列;规范性用于度量数据的规范程度,判断数据是否按统一格式存储,是否满足用户定义条件及规范约束等;及时性用于度量数据更新的及时程度,主要对数据的更新速度、频次、覆盖率及时效性进行评判;一致性用于度量数据的关联程度,判断同一个信息主体在不同数据集中的逻辑准确性和完整性。先验数据质量维度1完整性ZH1准确性I_唯一性J规范性及时性一致性二值完整性语法准确性主键唯一性格式规范性更新速度逻辑一致性记录完整性逻辑准确性记录唯一性指代规范性更新频次关联一致性属性完
5、整性值准确性指向唯一性缺值规范性更新覆盖率参照完整性文件完整性区间准确性属性唯一性语义规范性时效性概念完整性概念准确性可读性模型完整性模型准确性2 图1先验数据质量维度3 .后验数据质量维度后验数据质量维度包括可用性、合理性、业务效益、数据维护(如图2所示)。其中,可用性用于度量数据在使用过程中的可用程度,主要从技术角度对数据的使用情况进行分析,判断该外部数据是否能正确接入内部系统并被正确使用;合理性用于度量数据使用者的主观感受,若使用过程中发现分析结果不符合实际情况,或发现模型未达到预期效果,该外部数据的合理性就可能存在问题;业务效益用于度量数据所能带来的客观价值,例如在使用该外部数据后,拓
6、客业务成功获取多少新客户,风控业务成功挖掘出多少高风险企业等;数据维护用于度量外部数据供应商后续提供的相关服务,如数据对标、数据清洗、数据更新、数据稳定性等。4 图2后验数据质量维度5 .数据质量评价模型各维度得分量化对于六个先验数据质量维度,若没有特殊要求,可以直接计算没有相关问题的记录在整个数据集中的占比来表示对应维度的得分:Pi=1n出现相关问题的记录数,i=1,6(分别对应六个维度)九总记录数而对于四个后验数据质量维度,可以结合具体业务场景来对得分进行量化。例如,对于可用性,可综合考虑数据对标率、模型准确率等指标;对于合理性,可以根据数据使用者的主观评价,对该维度进行量化得分;对于业务
7、效益,可利用场景的客观业务指标进行评估;对于数据维护,可以综合考虑数据供应商的服务积极性、更新及时性等指标。(2)先验数据质量维度权重不同的业务场景在数据质量维度方面是各有侧重的,本文以拓客业务和风控业务为例,提出这两种业务场景下的通用先验数据质量维度权重模型。拓客业务要求完整且准确的客户信息以及所处的关联网络的信息,如客户的地址、电话号码以及客户间的股权关系等,因此这类业务需要保证数据的完整性和准确性。止匕外,客户信息更新频率较低,且其规范性对挖掘结果影响不大。因此,可以适当降低对这类业务及时性和规范性的要求。风控业务要求以最快速度得到准确的风险信息,及时进行风险评估并对抗风险。因此,这类业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用 视角 浅谈 外部 数据 质量 评价