第9章 大数据处理习题答案.docx
《第9章 大数据处理习题答案.docx》由会员分享,可在线阅读,更多相关《第9章 大数据处理习题答案.docx(12页珍藏版)》请在第一文库网上搜索。
1、第9章大数据处理习题9.1选择题1、在数据预处理阶段,数据合并到一致的存储介质中,使得数据挖掘更有效、挖掘模式更易理解,这一过程是(B)A.数据清洗B.数据集成C.数据归约D.数据转换2、以下(B)不是数据归约策略。A.属性子集的选择B.属性构造3、数据转换包括以下的(A)策略。A.合计处理B.平滑处理C.实例规约C.规格化处理D.属性值的规约D.以上全是4、目前机器学习的首要步骤一般是(C)。A.模型训练B.交叉验证C.特征提取D.数据可视化5、下面哪一项不是监督学习算法(B)0A.K最近邻算法B.DBSCAN算法C.决策树算法D.逻辑回归算法6、下列属于数据处理任务的是(D)。A.分类B,
2、聚类C.关联分析D.以上全是7、支持向量机SVM常常用来进行(C)oA.处理数据B.聚类C.分类D.关联分析8、以下(A)在神经网络中引入了非线性。A.修正线性单元(Re1U)B.随机梯度下降C.卷积函数D.以上都不是9、神经网络中过拟合问题的处理方法包括以下的(A)。A.正则化B.随机失活C.池化函数D.A和B10、集成学习方法不包括以下的(C)A.BoostingB.StackingC.DropoutD.BaggingII、批归一化层的目的是(C)oA.它将权重的归一化平均值和标准差B.减少神经元的输出C.让每一层的输入的范围都大致固定D.使得反向传播(BP)有效12、下面(B)不是数据清
3、洗方法。A.缺失值处理B.泛化处理C.离群点检测D.冗余数据处理13、聚类过程的要求包括(D)。A.可扩展性B.可进行基于约束的聚类C.对输入数据不敏感D.以上全是14、对分布式处理架构的描述不正确的是(D)。A.多个节点并行工作B.数据处理效率高C.每个节点负责一部分任务D.存在唯一的中心节点15、对激活函数SigmOid的描述不正确的是(D)0A.可用于二分类问题B.容易造成梯度消失C.可以减少网络计算量D.是一条非线性曲线9.2填空题1、APriori算法的核心步骤是(连接步)和(剪枝步)。2、机器学习的特征选择方法包括(过滤器方法)、(包装器方法)和(嵌入式方法)等。3、目前大数据处理
4、架构一般分为(集中式处理架构)和(分布式处理架构)两种。4、人工神经网络中,当数量众多的神经元全部连接起来后,可呈现网络状,如果各个神经元之间无环,则被称为(多层前馈)神经网络。5、神经网络中的池化方法包括(最大池化)和(平均池化)09.3简答题1、请简述数据预处理的目的及典型的几种类型。答:数据预处理目的是为数据挖掘模块提供准确、有效、具有针对性的数据,提高数据挖掘与知识发现的效率。数据预处理方法包括:数据清洗,删除重复数据、纠正数据中存在的错误,并使数据保持一致性;数据集成,将存储在不同存储介质中的数据合并到一致的存储介质中;数据转换,将数据从一种表示形式转换为另一种表现形式;数据归约,在
5、尽可能保持数据原貌的前提下,最大限度地精简数据量。2、分别简述数据挖掘算法中的监督学习和无监督学习的含义,并列举各自包含的几种典型方法。答:监督学习:通过己有的训练样本训练得到一个最优模型,通过模型对未知数据进行分类。主要包括K最近邻算法、决策树、线性回归、逻辑回归等方法。无监督学习:没有任何训练样本,直接对数据进行建模。主要包括K-Means算法、DBSCAN算法、Apriori算法、FP-growth算法等。3、请描述卷积神经网络中卷积层和池化层的作用。答:卷积层:由数量不定的卷积核加上偏置项(BiaS)组成。本质上是个权值矩阵,矩阵中的值是稀疏的。它主要进行局部特征提取,通过卷积核与上一
6、层输出的特征完成点积和累加操作,得到特征矩阵,也称为特征图(FeatureMap)O卷积层的所有卷积核在进行特征提取的过程中,其参数值,也就是权值矩阵的值是固定且共享的。池化层:在构建一个完整的卷积神经网络时的作用仅次于卷积层,具有缩小特征图的作用,由于其不含参数,因此比卷积层中进行的采样更高效。4、简述机器学习中进行特征选择的原因和目标。答:特征选择指选择出适合模型算法的最优特征子集来提升模型的性能。机器学习中进行特征选择的原因是:当数据维度达到一定水平时,将所有特征放入算法中将会带来维度灾难。特征选择的目标是:1)提高模型的泛化能力,避免过拟合并,降低误差。2)减少特征数量,提高计算效率,
7、提供更快的、具有成本效益的模型。3)筛选出不相关特征,降低模型的学习难度,前提是对特征本身有更深入的了解。5、请简述分布式大数据处理架构及其优点,并列举出几个著名的分布式大数据开源平台。答:分布式处理架构是先将一组节点连接起来形成系统,然后将需要处理的大批量数据分布在多个节点上,由多个节点去执行,通过分布式并行处理提高处理效率,最后合并计算得出最终结果。优点主要有:1)可以平衡负载和共享资源。2)降低大数据处理的成本。3)支持大数据在更多场景下的应用。目前基于服务器集群的分布式大数据平台:HadoopSpark、Storm、SamZa、F1ink等。9.4解答题1、数据挖掘任务中分类一般分为几
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第9章 大数据处理习题答案 数据处理 习题 答案