数据合规人要懂的50个产品技术名词.docx
《数据合规人要懂的50个产品技术名词.docx》由会员分享,可在线阅读,更多相关《数据合规人要懂的50个产品技术名词.docx(22页珍藏版)》请在第一文库网上搜索。
1、数据合规人要懂的50个产品技术名词1什么是数据发现?一旦数据收集完成,下一步就是数据发现。数据发现是识别可用于数据分析和/或数据整合的数据集的过程。这一阶段对于评估数据质量至关重要,因为数据发现工具可以浏览数据或应用高级分析来监测模式和异常值。帮助商务用户进行日常操作和业务决策这一目的,可以通过可视化分析来实现。数据准备这一关键阶段往往被忽视,然而在正确处理数据之前了解数据意味着数据在共享使用时会更加可靠。数据发现过程使用工具及专业知识,在数据专家的协助下、从收集到的数据中观测到模式或趋势。数据发现可以分为两大类:手工数据发现是传统的商业智能过程,由数据专家凭借他们渊博的应用案例知识、理解力和
2、丰富经验,手工绘制数据图。这种方法完全依赖个人理解力,由数据专家构思并勾勒出数据图表,用以关联和理解数据。智能数据发现是一种更现代的商业智能形式,使用机器学习的自动化过程来揭示数据价值、并提供高质量的商务见解。使用人工智能的优点是,耗时少,可以准备、构思、整合和共享相关联的数据。也可以编制数据可视化,呈现隐藏的模式和有价值的见解。2 .什么是分类分级?分类:更多是从业务角度出发,在企业理清数据家底后,明确知道哪些数据(其实应该是元数据,更贴切一些应该是字段)属于哪个业务范畴,也就是类别。这个业务范畴囊括的范围可大可小,完全依托于企业前期基于业务的梳理结果。举个例子:身份证号这一类数据,既可以属
3、于个人信息范畴,也可以属于个人基本信息范畴,前者的范围明显大于后者。也许有朋友会发出疑问,给业务划分类别当然是越细越好。这就是笔者要在此处强调的,做数据分类,并不是业务越细分越好,因为很有可能细分业务之后,最终却发现无数据可进行归类,这是典型分类失败的体现。当然反过来也成立,分类少了,数据归不进去,也是分类失败的体现。分级:不同于数据分类,对于大多数企业来说,更多是从满足监管要求的角度出发。数据分级属于数据安全领域,或许称呼它为敏感等级更为贴切。企业中的数据有的密级程度高、有的低、有的可公开、有的不可公开,敏感等级不同的数据对内使用时受到的保护策略不同,对外共享开放的程度也不同。如果企业对自己
4、内部的数据没有一个明确地认识,先不说是否可以满足监管要求,对于自身的运营来说都是严重的隐患,因为很可能一不小心就将内部的敏感信息泄露了出去。3 .什么是元数据?元数据(Metadata)中的元(Meta)J可以理解为事物或对象,数据(data)J当然就是指该对象的相关数据。你可能接触过照片的元数据,其中包括图像尺寸、拍摄时间或者是光圈和快口信息、GPS数据,对于视频文件也一样,比如画面的尺寸、视频和音频的编码、时长等等。实际上你可以理解成,关于该文件或对象的一切信息都是元数据,无论是技术相关的信息还是内容信息的一切。技术型元数据技术型元数据通常涵盖了从相机或摄像机获得的信息范围,这很自然,因为
5、这些数据主要就是由其拍摄和生成的。其中除了包括前面提到的图像大小、帧速率、编码以外,还可能(取决于相机和来源)包括镜头型号、焦距、白平衡、相机硬件序号、镜头硬件序号等等。取决于摄像机型号的不同,一些基本数据会跟随数字媒体文件的生成被嵌入到媒体文件内部,而另一些可能会被单独存储在一个称为FSidecarJ的文件中,这通常是一个XM1文件,而且带有硬件生产商的特定属性。内容型元数据这通常是更有用的元数据,因为它包括的范围更广。内容型元数据除了能用来描述媒体或片段的内容以外,还可以被用来对素材进行管理、分类、纳入上下游操作流程,甚至也能提供一些技术型元数据的功能。基本上,你可以把内容型元数据直接理解
6、成关键字,但它有除了可以是字符型内容以外,还可以是评分、勾选框等类型。内定型元数据可以非常简洁,也可以非常冗长,但相同点在于,它们目前来说都是由工作人员在制作流程中手动添加和修改的。也许是摄像师在拍摄中添加的场号、镜号,也许是D1T人员添加的卷号、样片号、机位编号、景别附注、外观附注,也许是剪辑助理或VFX艺术家添加的各种注释等等。4 .什么是数据映射(DataMapping)?给定两个数据模型,在模型之间建立起数据元素的对应关系,将这一过程称为数据映射。数据映射是很多数据集成任务的第一步,例如:数据迁移(datamigration)、数据清洗(datac1eaning)、数据集成、语义网构造
7、、p2p信息系统。5 .什么是数据迁移(DataMigration)?数据迁移是指将数据从一个位置转移到另一个位置,从一种格式转换为另一种格式,或从一个应用程序移动到另一个应用程序的过程。数据迁移通常是为数据引入新系统或位置的结果。业务驱动因素通常是应用程序迁移或整合,在这种迁移或整合中,原有系统会被共享同一数据集的新应用程序所取代或增强。如今,随着企业从内部基础架构和应用程序迁移到基于云的存储和应用程序以优化或转变公司,数据迁移即开始。6 .什么是数据清洗(DataC1eaning)?对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看
8、的出就是把脏的洗掉,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。7 .什么是数据治理(DataGovernance)?数据治理是指为确保数据安全、私有、准确、可用和易用所执行的所有操作。它包括人们必须采取的行动、必须遵循的流程以及在整个数据生命周期中为其提供支持的技术。数据治理意味着设置适用于收集、存储、处理和处置数据的内部标准,即数据策略。它规定了谁可以访问哪些数据以及哪些数据应受治理。数据治理还涉及遵循行业协会、政府机构和其他利益相关者设定的外部标准。数据治理包含以下几方面内容口:a确保有效助力业务的决策机制和方向;b确保绩效和合规进行监督;
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 合规 人要懂 50 产品 技术 名词