数据清洗、去标识化、匿名化业务规程(试行) 2023.docx
《数据清洗、去标识化、匿名化业务规程(试行) 2023.docx》由会员分享,可在线阅读,更多相关《数据清洗、去标识化、匿名化业务规程(试行) 2023.docx(43页珍藏版)》请在第一文库网上搜索。
1、目录一、处理目标及相互关系1(一)数据清洗是数据可用的保障1(二)去标识化是数据脱敏的关键1(三)匿名化是去标识化的强化2二、数据处理原则4(一)合法合规4(二)安全优先4(三)平衡效用4(四)技管结合4(五)有效溯源5三、数据清洗规程5(一)处理目的5(二)处理流程6(三)常见技术方法9四、数据去标识化规程12(一)处理目的12(二)处理流程13(三)常见技术方法18五、数据匿名化规程21(一)处理目的21(二)处理流程21(三)常见技术方法25六、数据处理环境要求29(一)管理制度要求29(二)技术能力要求30(三)人员能力要求30(四)过程控制要求30(五)事故管理要求31附件一:常见直
2、接标识符和准标识符示例32附件二:常见标识符的去标识化或匿名化参考36附件三:部分数据处理技术方法应用建议40参考资料43表目录表1数据清洗、去标识化、匿名化处理的技术特点和差异3习近平总书记在2023年中国国际服务贸易交易会全球服务贸易 峰会上发表视频致辞指出,要“推动数据基础制度先行先试改革”。 中共中央国务院关于构建数据基础制度更好发挥数据要素作用的 意见要求“创新技术手段,推动个人信息匿名化处理”。规范数据清 洗、去标识化 匿名化处理,有助于提升数据的可用、可信 可流 通、可追溯水平,推动数据要素强化优质供给,是建立合规高效、 场内外结合的数据要素流通和交易制度的重要内容。具体来说,为
3、满 足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理,是 数据产品进场上市的条件,也是数据资产登记、交易的前提,更是数 据应用、建模释放二次衍生价值的底线。本报告通过明晰数据清洗、 去标识化、匿名化处理三者之间的关系,总结各项处理活动的处理目 的、流程、技术方法及环境要求,以期为相关组织开展相应数据处理 活动和测试评估提供参考。一处理目标及相互关系(一)数据清洗是数据可用的保障数据清洗是运用一定方法修正识别到的数据问题,实现数据的规 范性、完整性、一致性、准确性和可溯源性,提高数据质量的过程。 数据清洗旨在满足数据的可用性要求,是数据资源预处理的第一步, 也是保证后续处理结果准确、科学
4、、有效的重要一环。数据清洗作为 数据后续开发利用的基础,是数据去标识化和匿名化处理的前置步骤。(二)去标识化是数据脱敏的关键数据去标识化是指数据经过处理,使其在不借助额外信息的情况 下无法识别特定自然人或相关标识符的过程。数据去标识化处理强调 标识符的“不可识别性”,即对数据内含的相关敏感信息内容进行脱 敏处理,通过去除、替换、模糊等方法,达到不借助额外信息的情况 下无法识别特定自然人或相关标识符的效果。数据去标识化与在先的标识形成过程分属数据处理的不同阶段 及场景。标识形成是产生数据的过程,使得被标识对象据此可以被组 织进行有效管理和开发利用。数据去标识化是标识数据产生后的加工 处理过程,旨
5、在提升标识信息的安全防护水平,确保敏感的标识内容 不被未经授权的主体获取和利用。去标识化处理是强化标识数据安全 性的重要保障。例如,制造业企业通过对产品、零部件、设备进行标 识,形成了可精准定位产品和设备的数据资源,在委托外部第三方技 术开发商进行相关应用系统开发时,需要对含有敏感内容或涉及商业 秘密的数据进行去标识化处理。数据去标识化处理暗含了相关标识符具有“复原”的可能,去标 识化无法单独实现匿名化的法律效力。例如,对个人信息进行去标识 化处理后的数据,仍属于个人信息范畴。(三)匿名化是去标识化的强化数据匿名化是指数据经过处理,无法识别特定自然人或相关标识 符且不能复原的过程。数据匿名化处
6、理在强调标识符的“不可识别性” 基础上,要求标识符同时满足“难以复原性”标准,是数据去标识化 的进一步处理,即数据去标识化后应用相关技术使相关标识符难以复 原的过程。经匿名化处理后数据的初始效用将受到较大程度的改变。与数据去标识化相比,经匿名化处理后的数据即便借助了额外信 息也难以识别特定自然人和被处理的标识符。例如,对个人信息进行 匿名化处理后的数据,不再属于个人信息范畴。但匿名化处理仅是描 述应用匿名化技术的过程,并非描述数据达到绝对匿名化的状态,完 满、绝对的不可复原状态无法100%确定。表1数据清洗、去标识化、匿名化处理的技术特点和差异加工后数据改造程度(相对原始数据)数据有用性(针对
7、个体记录)数据安全性(脱敏程度)清洗后数据低高低(单独可识别)去标识化数据中中中(不借助额外信息不可识别)匿名化数据高低高(借助额外信息也难以 复原的不可识别)来源:中国信息通信研究院去标识化技术和匿名化技术没有严格界分,二者核心都是通过技 术手段对标识信息进行脱敏处理,实现对敏感数据内容的保护,实践 中两类技术通常可以组合使用实现预期处理效果。本报告根据抗重新 识别的风险能力大小和对敏感内容安全防护程度的差异,将相关技术 划分为去标识化技术和匿名化技术。仍保留原始数据个体颗粒度的, 纳入去标识化技术方法范畴;不再保留原始数据个体颗粒度,或原始 数据记录的真实性已受到显著减损,或原始数据记录不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据清洗、去标识化、匿名化业务规程试行 2023 数据 清洗 标识 匿名 业务 规程 试行