2023最新大数据面试宝典.docx
《2023最新大数据面试宝典.docx》由会员分享,可在线阅读,更多相关《2023最新大数据面试宝典.docx(79页珍藏版)》请在第一文库网上搜索。
1、2023最新大数据面试宝典目录Hadoop61. 请说下HDFS读写流程62. HDFS在读取文件的时候,如果其中一个块突然损坏了怎么办73. HDFS在上传文件的时候,如果其中一个DataNode突然挂掉了怎么办84. NameNode在启动的时候会做哪些操作85. SeCondaryNameNOde了解吗,它的工作机制是怎样的96. SecondaryNameNode不能恢复NameNode的全部数据,那如何保证NameNode数据存储安全97. 在NameNOdeHA中,会出现脑裂问题吗?怎么解决脑裂108. 小文件过多会有什么危害,如何避免119. 请说下HDFS的组织架构1110.
2、请说下MR中MaPTask的工作机制1211. 请说下MR中ReduceTask的工作机制1312. 请说下MR中ShUffIe阶段1413. ShUffIe阶段的数据压缩机制了解吗1514. 在写MR时,什么情况下可以使用规约1515. YARN集群的架构和工作原理知道多少1516. YARN的任务提交流程是怎样的1617. YARN的资源调度三种模型了解吗17Hive181. HiVe内部表和外部表的区别182. HiVe有索引吗193. 运维如何对HiVe进行调度194. ORC、ParqUet等列式存储的优点205. 数据建模用的哪些模型?216. 为什么要对数据仓库分层?237. 使
3、用过HiVe解析JSoN串吗238. sortby和orderby的区别239. 数据倾斜怎么解决2410. Hive小文件过多怎么解决2411. HiVe优化有哪些26Spark271. Spark的运行流程?272. Spark有哪些组件?283. Spark中的RDD机制理解吗?294. RDD中reduceBykey与groupByKey哪个性能好,为什么?295. 介绍一下cogrouprdd实现原理,你在什么场景下用过这个rdd?.306. 如何区分RDD的宽窄依赖?307. 为什么要设计宽窄依赖?308. DAG是什么?319. DAG中为什么要划分Stage?3110. 如何划
4、分DAG的stage?3111. DAG划分为Stage的算法了解吗?3112. 对于Spark中的数据倾斜问题你有什么好的方案?3213. Spark中的OOM问题?3214. Spark中数据的位置是被谁管理的?3315. Spaek程序执行,有时候默认为什么会产生很多task,怎么修改默认task执行个数?3316. 介绍一下join操作优化经验?3417. Spark与MapReduce的Shuff1e的区别?3418. SparkSQ1执行的流程?3519. SparkSQ1是如何将数据写到Hive表的?3520. 通常来说,Spark与MapReduce相比,Spark运行效率更高
5、。请说明效率更高来源于Spark内置的哪些机制?3621. Hadoop和Spark的相同点和不同点?3622. Hadoop和Spark使用场景?3723. Spark如何保证宕机迅速恢复?3724. RDD持久化原理?3725. Checkpoint检查点机制?3726. Checkpoint和持久化机制的区别?3827. SparkStreaming以及基本工作原理?3828. DStream以及基本工作原理?3929. SparkStreaming整合Kafka的两种模式?3930. Spark主备切换机制原理知道吗?4131. Spark解决了Hadoop的哪些问题?4132. 数据
6、倾斜的产生和解决办法?4233. 你用SparkSq1处理的时候,处理过程中用的DataFrame还是直接写的Sq1?为什么?4234. SparkMasterHA主从切换过程不会影响到集群已有作业的运行,为什么?4235. SparkMaster使用Zookeeper进行HA,有哪些源数据保存到Zookeeper里面?4336. 如何实现SParkStreaming读取F1Ume中的数据?4337. 在实际开发的时候是如何保证数据不丢失的?4338. RDD有哪些缺陷?44Kafka441. 为什么要使用kafka?452. Kafka消费过的消息如何再消费?453. kafka的数据是放在
7、磁盘上还是内存上,为什么速度会快?464. Kafka数据怎么保障不丢失?465. 采集数据为什么选择kafka?486. kafka重启是否会导致数据丢失?487. kafka宕机了如何解决?488. 为什么Kafka不支持读写分离?499. kafka数据分区和消费者的关系?4910. kafka的数据offset读取流程4911. kafka内部如何保证顺序,结合外部组件如何保证消费者的顺序?5012. Kafka消息数据积压,Ka妹a消费能力不足怎么处理?5013. Kafka单条日志传输大小50Hbase511. HbaSe是怎么写数据的?512. HDFS和HBaSe各自使用场景5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 最新 数据 面试 宝典