样本数据处理-习题及答案汇总 许桂秋 第1--9章 数据预处理概述---基于Python的数据整理.docx
《样本数据处理-习题及答案汇总 许桂秋 第1--9章 数据预处理概述---基于Python的数据整理.docx》由会员分享,可在线阅读,更多相关《样本数据处理-习题及答案汇总 许桂秋 第1--9章 数据预处理概述---基于Python的数据整理.docx(8页珍藏版)》请在第一文库网上搜索。
1、第1草数据预处理概述简述数据预处理的方法和内容。有如下不完整的原始数据集:客户编号客户名称凤Jft等级收入I朱三3SOOO2李四280003王近2100004症六15000$李木6|王权1160001 .请简述数据清洗的作用。2 .请使用数据清洗中多种常用的方法来填充表中的空缺值。略。数据清洗主要目的是什么?现实世界的数据一般是不完整的、有噪声的和不一致的。数据清洗试图填充缺失值、光滑噪声和识别离群点,并纠正数据中的不一致。第2章Kett1e工具的初步使用什么是转换?转换是ET1(EXtraCtTranSfOrnI1Oad)解决方案中最主要的部分,它负责处理抽取、转换加载各阶段对数据行的各种操
2、作。转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库转换中的步骤通过跳来连接,跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kett1e中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动数据流的另一个同义词就是记录流。(2)KettIe的参数配置分为哪两类,请简述每一类的作用范围。位置参数(Argument)和命名参数(Parameter)。一个步骤有哪几个关键特性?步骤需要有唯一的名字每个步骤都会读、写数据行步骤之间通过跳进行数据行的单向传输。大多数的步骤都可以有多个输出跳。在运行转换时,一个线程运行一个步骤,所有步骤几乎同时运行。什么
3、是跳?转换的跳就是步骤之间带箭头的连线,跳定义了步骤之间进行数据传输的单向通道。从程序执行的角度看,跳实际上是两个步骤线程之间进行数据行传输的缓存。这个缓存被称为行集,行集的大小可以在转换的设置里定义。当行集满时,向行集写入数据的步骤将停止写入,直到行集里又有了空间。当行集空时,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。第3章数据的导入与导出什么是CDC(变化数据捕获)?变化数据捕获(ChangeDataCapture,缩写CDC)是指识别和捕获对数据库中的数据所做的更改(包括数据或数据表的插入、更新、删除等),然后将这些更改按发生的顺序完整记录下来,并实时通过消息中间件传送到
4、下游流程或系统的过程。通过这种方式,CDC能够向数据仓库提供高效、低延迟的数据传输,以便信息被及时转换并交付给专供分析的应用程序。在ET1工作中,我们常常面临着处理各种类型文件的场景,请列举几个经常处理的文件类型。TXT、CSV、Exce1.XM1、JSON等。简述基于源数据的CDC操作的优缺点。优点:数据抽取的性能高,ET1加载规则简单,速度快,不需要修改业务系统表结构,可以实现数据的递增加载。缺点:要求业务表建立触发器,对业务系统有一定的影响,容易对源数据库构成威胁。简述基于日志的CDC操作的优缺点。基于查询的CDC:优点是实现简单,是通过批处理实现的,需要依赖离线调度,不能保证数据强一致
5、性和实时性。简述基于触发器的CDC操作的优缺点。略。第4章数据清洗数据清洗的主要目的是什么?数据清洗的目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分解和重组,最终将原始数据转换为满足数据质量或者应用要求的数据。使用KettIe进行数据清洗常用的步骤有哪些?请简要描述。步骤1、环境准备;步骤2、创建TranSfOrmmationS;步骤3、运行任务。简单描述如何去除不完全重复的数据。第一步,选定一个或多个字段,使用模糊匹配步骤找出疑似重登数据的记录第二步,选定一个或多个字段做为参考字段,进一步检测数据的可能重夏性第三步,去除或者合并
6、这些疑似重复的记录,这一步是非常关键的一步,需要结合多方面的因素进行综合评估,最终才能确定一个合并/去除的方案。在Kett1e中,当有些任务可以使用脚本进行数据清洗,也可以使用其他步骤进行数据清洗时,该如何选择,请简述原因。略。简述基于源数据的CDC操作的优缺点。优点:数据抽取的性能高,ET1加载规则简单,速度快,不需要修改业务系统表结构,可以实现数据的递增加载。缺点:要求业务表建立触发器,对业务系统有一定的影响,容易对源数据库构成威胁。简述基于日志的CDC操作的优缺点。基于查询的CDC:优点是实现简单,是通过批处理实现的,需要依赖离线调度,不能保证数据强一致性和实时性。简述基于触发器的CDC
7、操作的优缺点。略。第5章数据标注简要概括数据标注的几个基本流程。数据采集f数据清洗一数据标注一数据质检。列出数据标注的几个分类及它们的应用领域。1 .图像标注图像标注是数据标注的重要类型之一,也是最广泛、最普遍的一种数据标注类型。图像标注问题的本质是把视觉转换成语言的问题,通俗来说,就是“看图说话”。同理,我们希望算法能够根据图像的特征,得出描述其内容含义的自然语句和自然语言。这对于人类来说不算什么,但是对于计算机来说,却是一个不小的挑战。因为图像标注问题需要在图像信息和文本信息这两种不同形式的类型之间进行“翻译”。2 .文本标注标注问题实质上是输入一个观测序列,输出一个标记序列或者状态序列。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 样本数据处理-习题及答案汇总 许桂秋 第1-9章 数据预处理概述-基于Python的数据整理 样本 数据处理 习题 答案 汇总 数据 预处理 概述 基于 Python 整理
链接地址:https://www.001doc.com/doc/1010884.html