数据脱敏的应用与思考.docx
《数据脱敏的应用与思考.docx》由会员分享,可在线阅读,更多相关《数据脱敏的应用与思考.docx(8页珍藏版)》请在第一文库网上搜索。
1、数据脱敏的应用与思考目录编者按1-XZ-J1-刖11 .脱敏技术现状综述21.1. 常见的数据脱敏技术21.2. 数据脱敏技术现存问题31.2.1.1. 于敏感数据的保护不足31.2.1.2. 数据的使用价值造成损失32 .隐私计算技术概述41. 1.差分隐私42. 2.同态加密43. 3.不经意传输协议53 .隐私计算技术在数据脱敏中的应用53.1. 加强敏感数据保护53.1.1. 基于本地差分隐私的数据收集脱敏53.1.2. 基于不经意传输协议的查询意愿脱敏63.2.提高敏感数据价值63.2.1.基于同态加密的云计算数据脱敏63.2.2.基于同态加密的数据恢复脱敏74.趋势和展望8参考文献
2、9编者按本文提出了应用隐私计算的底层密码学算法、协议来进行数据脱敏的一些思考和应用方案,以期满足当下对数据安全越来越高的合规要求和对数据资产价值全面释放的迫切需要。前言数据被列为了与物质、土地、人力资源同样重要的基础生产要素,一个以数据驱动经济社会发展的时代悄然来临1。数据的价值在于流动与融合,然而近年来由于数据滥用和泄露造成的数据安全问题比比皆是,这进一步威胁到了个人权益、企业利益及国家安全。基于此背景,国家在2023年陆续颁布了中华人民共和国数据安全法和中华人民共和国个人信息保护法2,力求最大限度保证数据的规范使用和数据价值的安全释放。伴随着政策法规的颁布,数据安全与隐私保护的相关技术逐渐
3、走进人们的视野。其中,数据脱敏就是一项重要的数据安全防护手段,它可以有效地减少敏感数据在采集、传输、使用等环节中的暴露,进而降低敏感数据泄露的风险。但是目前常见的数据脱敏技术存在着一定的局限性。一方面,现有的脱敏技术对敏感数据的保护性不足,恶意攻击者可以结合相关背景信息,推导出敏感数据,引发隐私泄露的风险;另一方面,现有脱敏技术通常会改变原始数据的数据结构,在一定程度上影响了数据的可用性,折损了脱敏后数据的使用价值。在近年数据隐私保护的大趋势下,隐私计算技术热度逐渐攀升,它可以在原始数据不可见的前提下,依然能完成其数据价值的释放,实现数据的“可用不可见”。这个特质也与数据脱敏的目的高度一致,即
4、在保护敏感数据安全的前提下,实现数据价值合法合规的流通。因此,基于当前数据脱敏技术存在的局限性,本文提出了应用隐私计算的底层密码学算法、协议来进行数据脱敏的一些思考和应用方案,以期满足当下对数据安全越来越高的合规要求和对数据资产价值全面释放的迫切需要。1脱敏技术现状综述1.1. 常见的数据脱敏技术数据脱敏是指从原始环境向目标环境进行敏感数据交换时,通过一定的方法消除原始环境中数据的敏感性,并保留目标环境业务所需的数据特性或内容的数据处理过程3。数据脱敏要确保脱敏过程的代价可控,在合规的前提下,得到满足业务需要的数据结果。在实施数据脱敏时,往往需要平衡脱敏后数据或数据集的安全性和可用性。常见的数
5、据脱敏方法,集中在泛化、抑制、扰乱和有损四方面4。泛化和抑制都是通过对数据实施取整、归类、截断、掩码屏蔽等方式降低数据的精度实现的脱敏,脱敏后数据在一定程度上保留了原始数据所携带的非敏感信息。扰乱是指通过对数据中的敏感信息使用重排、加密、散列等方式,破坏其结构,脱敏后数据的敏感信息被完全隐藏,因此极难推断出原始数据所携带的敏感信息。有损是指限制对数据集的敏感行数和列数向目标环境的交换来保护敏感数据不外泄。1.2. 数据脱敏技术现存问题12.1.对于敏感数据的保护不足现有的数据脱敏技术往往是对样本标识实施脱敏,从而保证样本不被识别,达到保护个体隐私的目的。但是攻击者可以通过结合相关背景知识与脱敏
6、的数据样本融合推导,得出数据样本的原始标识,导致样本隐私的泄露。例如,在常用的脱敏操作中,我们对用户的标识(如姓名、身份证号、电话号码等)进行脱敏,其属性类数据(如收入、贷款额度等)保留原始数据形态以参与统计分析。而具有恶意的数据使用者往往可以借助不同的数据表之间的关联关系,窥探或者反推出某个个体的标识,从而获取个体隐私。随着信息技术和互联网的进步,每个人获取数据的渠道五花八门,能够更容易地洞悉出数据与数据之间的联系,这也进一步降低了背景知识攻击的门槛。因此,如何更好地防范脱敏后的数据标识被反推造成的隐私泄露,是当前数据脱敏技术需要关注的重点。12.2.对数据的使用价值造成损失在数据挖掘算法、
7、模型的加持下,数据资产的价值在业务场景赋能的建设过程中越发显现。数据价值的充分挖掘需要将样本多样化的数据特征作为原料,投入到计算平台进行融合计算或联合分析。然而根据合规要求,样本数据往往需要经过脱敏后参与计算。根据脱敏的方式不同,脱敏后的数据通常会损失精度,或者根本无法参与计算,那么数据资产的价值也会随之折损。例如在统计贷款额度时,如果对相关数值使用了泛化的脱敏方式,其统计结果将会严重损失精度,降低业务分析的价值;再比如,对某些数值型变量经过扰乱脱敏后完全无法参与计算。因此现有的数据脱敏技术对数据要素的价值有所“浪费”,在当下鼓励数据融合、促进数据交易、释放数据价值的大背景下,这种“浪费”显然
8、是需要改进的。2.隐私计算技术概述根据大数据联合国全球工作组(BigdataUNG1ObaIWOrkingGroUP)的定义,隐私计算是在处理和分析计算数据的过程中能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取的一类技术的范畴和集合5o目前隐私计算技术的实现主要依赖于差分隐私、同态加密、不经意传输协议等密码算法和协议。本文认为,这些密码技术或安全协议被应用于数据脱敏时,既可以提升数据脱敏的安全性,增强对敏感数据的保护,又能够保证数据价值的无损应用,从而兼顾数据的安全性和可用性,推动数据要素的价值最大化合规释放。下面本文将针对差分隐私、同态加密和不经意传输协议三种技术和其在数据脱敏方
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 应用 思考