大数据校内测评和总决赛理论部分模拟题_0412.docx
《大数据校内测评和总决赛理论部分模拟题_0412.docx》由会员分享,可在线阅读,更多相关《大数据校内测评和总决赛理论部分模拟题_0412.docx(15页珍藏版)》请在第一文库网上搜索。
1、大数据分析与应用技术能力Big-dataAna1ysisandApp1ications(BAA)考试的基本规范1eve1等级考试题目考试时间I满分及格分数Essentia1核心级80601000700Fundamenta1s50401000700每次考试取题量1eve1等级单选题多选题判断题合计Essentia1核心级30203080Fundamenta1s20102050Essentia1判断题O1HiVe在导入数据的时候,被导入数据是以该分割符划分的,否则导入后为nu11,缺省都列为nu11。O2分区表指的是在创建表时,指定的ParHtiOn的分区空间。O3托管表(managedtab1e
2、又称管理表或内部表)会将数据移入Hive的WarehOIse(仓库)目录;外部表(externa1tab1e)则不会。O4在删除表的元数据时,如果是托管表(managedtab1e)还会删除表的数据。5在数据库的F路径这个属性中设置:hive.metastore.warehouse.dir,其中默认的属性值是/user/hive/。O6externa1类型的表(tab1e),表对应的是文件夹,对于文件的位置不做任何限制,放到任何hdfs上到底位置都可以。O7在HadOoP中,作drop内部表(interna1)时,会删除hdfs上的文件夹和元数据。O8如果设置环境变量$PATH=$HIVE_H
3、OMEbin,即可直接使用HiVe的命令。O9必须在创建表的时候就指定了分区列才可以增加分区,后期不能增加分区列,只能增加分区字段的值。O10Sqe)OP可以在HDFS/HiVe和关系型数据库(re1ationa1database)之间,进行数据的导入导出,其中主要使用了import和export这两个工具。X11export工具,是将HDFS平台外部的结构化存储系统中的数据导入到HadooP平台,便于后续数据运算与分析。O12Hadoop,使用-append参数是将数据追加到HDFS上,一个已存在的数据集上。X13执行了importmath之后,即可执行语句PrimSin(Pi/2)。O14
4、Python可以不加声明就使用变量。X15可用OPen(fi1e1“,r)方式打开文件并进行修改。O16PythOr1是一种面向对象(object)的计算机程序设计语言。O17当我们想要跳过循环的当前迭代而不终止它时,R编程语言中的next语句是有用的。X18R语言中数组合矩阵是没有区别的。O19关于逻辑回归处理测量二元响应变量的概率,在R语言中,函数gm()可用于创建逻辑回归。O20R编程语言中的“next”语句是跳过循环的当前迭代而不终止。X21HadOOP支持数据的随机写。22S1aVe节点要存储数据,所以它的磁盘越大越好。X23因为HDFS有多个副本,所以NameNOde是不存在单点问
5、题的。X24Hadoop1.0和2.0都具备完善的HDFSHA(HighAVaiIabiIity)策略。X25HDFS的BIoCkSiZe是不可以修改的。26DataNOde通过长连接与NarT1eNode保持通信。O27HDFS系统并不支持数据的修改。O28Gang1ia不仅可以进行监控,也可以进行告警。X29NagioS不可以监控Hade)OP集群,因为它不提供HadOe)P支持。O30在HadoOP平台的机架感知(rackawareness)中,如果其中一个机架出问题,不会影响数据读写。O31HardoOP的MaPRed1ICe运算框架主要有map和reduce两个命令。O32在Hado
6、oP平台中,SParkRDD使数据处理人员不需去烦恼作大数据分析时,HadooP平台底层分散的处理数据及如何完成任务的细节。X33在HDFS中,hdfsdfs-rm命令可以把目录或文槽,从本地移到HDFS或是从HDFS移到本地。O341eVeIDB中使用了1SM树存储引擎。O35HbaSe采用是Key-Va1Ue形式的数据库,模拟于JaVa中的MaP形式。X36HBaSe中的数据都是字节,且有各种类型。单选题A1解压.tar.gz结尾的HBaSe压缩包使用的1inUX命令是tar-zvftar-zxtar-star-nfD2数据清洗的方法不包括缺失值处理噪声数据清除一致性检查重复数据记录处理D
7、3反映数据的精细化程度,越细化的数据,价值越高是指规模活性关联度颗粒度B4下列关于聚类挖掘(如K-mean)技术的说法中,错误的是不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别要求同类数据的内容相似度尽可能小要求不同类数据的内容相似度尽可能小与分类挖掘技术相似的是,都是要对数据进行分类处理C5下列通常是集群最主要的瓶颈是CPU网络磁盘I/O内存RAMC6可以对大数据进行深度分析的平台工具是传统的机器学习和数据分析肛具第二代机器学习工具第三代机器学习工具未来机器学习工具A7支撑大数据业务的基础是数据科学数据应用数据硬件数据平台C8按照涉及自变量的多少,可以将回归分析分为线性回归
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 校内 测评 决赛 理论 部分 模拟 _0412