（全国职业技能比赛：高职）GZ033大数据应用开发赛题第08套.docx

上传人：lao****ou

文档编号：1175637

上传时间：2024-12-26

格式：DOCX

页数：20

大小：27.65KB

《（全国职业技能比赛：高职）GZ033大数据应用开发赛题第08套.docx》由会员分享，可在线阅读，更多相关《（全国职业技能比赛：高职）GZ033大数据应用开发赛题第08套.docx（20页珍藏版）》请在第一文库网上搜索。

1、2023年全国职业院校技能大赛赛题第08套赛项名称：大数据应用开发英文名称：Big Data APPliCatiOn DeVeloPnlent赛项组别：高等职业教育组赛项编号：GZ033背景描述工业互联网是工业全要素、全产业链、全价值链的全面连接，是人、机、物、工厂互联互通的新型工业生产制造服务体系，是互联网从消费领域向生产领域、从虚拟经济向实体经济拓展的核心载体，是建设现代化经济体系、实现高质量发展和塑造全球产业竞争力的关键支撑，工业大数据则是工业互联网实现工业要素互联之后的核心价值创造者。随着大数据行业的发展，工业数据收集呈现时间维度不断延长、数据范围不断扩大、数据粒度不断细化

2、的趋势。以上三个维度的变化使得企业所积累的数据量以加速度的方式在增加，最终构成了工业大数据的集合。为完成工业大数据分析工作，你所在的小组将应用大数据技术, 以Scala作为整个项目的基础开发语言，基于大数据平台综合利用 Hive、Spark、Flink、Vue. js等技术，对数据进行处理、分析及可视化呈现，你们作为该小组的技术人员，请按照下面任务完成本次工作。任务A：大数据平台搭建（容器环境）（15分）环境说明：服务端登录地址详见各任务服务端说明。补充说明：宿主机及各容器节点可通过Asbru工具或SSH客户端进行SSH访问oMySQL已在容器的MaSter中安装完毕，用户名/密码为r

3、oot/123456子任务一：Hadoop完全分布式安装配置本任务需要使用rt用户完成相关配置，安装HadOOP需要配置前置环境。命令中要求使用绝对路径，具体要求如下：1、从宿主机/opt 目录下将文件 hadoop-2. 7. 7. tar. gz、 jdk-8u212-1 inu-64. tar. gz 复制到容器 master 中的optsoftware 路径中（若路径不存在，则需新建），将master节点JDK安装包解压到optmodule 路径中（若路径不存在，则需新建），将JDK解压命令复制并粘贴至客户端桌面【Release、任务A提交结果.docx】中对应的任务序号下

4、；2、修改容器中etcprofile文件，设置JDK环境变量并使其生效，配置完毕后在master节点分别执行java -version”和“javac”命令，将命令行执行结果分别截图并粘贴至客户端桌面【Release任务A提交结果.docx】中对应的任务序号下；3、请完成host相关配置，将三个节点分别命名为master、SIaVe1、slave2, 并做免密登录，用Scp命令并使用绝对路径从master复制JDK解压后的安装文件到SlaVe 1、slave2节点（若路径不存在，则需新建），并配置SlaVe 1、 slave2相关环境变量，将全部SCP复制JDK的命令复制并粘贴至客户端

5、桌面【Release任务A提交结果.docx中对应的任务序号下；4、在master将HadooP解压到optmodule （若路径不存在，则需新建）目录下，并将解压包分发至SIaVe1、SlaVe2中,其中master、slavel SIaVe2节点均作为datanode,配置好相关环境，初始化HadoOP环境namenode,将初始化命令及初始化结果截图（截取初始化结果日志最后20行即可）粘贴至客户端桌面【Release任务A提交结果.docx】中对应的任务序号下；5、启动Hadoop集群（包括hdfs和yarn）,使用jps命令查看master节点与 slavel节点的Java进程

6、，将jps命令与结果截图粘贴至客户端桌面【Release任务A提交结果.docx中对应的任务序号下。子任务二：Kafka安装配置本任务需要使用rt用户完成相关配置，已安装HadoOP及需要配置前置环境，具体要求如下：1、从宿主机/opt 目录下将文件 zookeeper-3.4.6. tar. gz、 kafka 2. 122. 0. 0. tgz 复制到容器 master 中的optsoftware 路径中（若路径不存在，则需新建），将MaSter节点ZookeePer, Kafka安装包解压到 optmodule目录下，将Kafka解压命令复制并粘贴至客户端桌面【Release 任务A

7、提交结果.docx】中对应的任务序号下；2、配置好zookeeper,其中zookeeper使用集群模式,分别将master slavel、 slave2作为其节点（若zookpeer已安装配置好，则无需再次配置），配置好 Kafka 的环境变量，使用 kafka-server-start, sh -version 查看 Kafka 的版本内容，并将命令和结果截图粘贴至客户端桌面【Release任务A提交结果.docx】中对应的任务序号下；3、完善其他配置并分发Kafka文件到SlaVe1、slave2中，并在每个节点启动 Kafka,创建ToPic,其中ToPiC名称为instatopi

8、c,分区数为2,副本数为2,将创建命令和创建成果截图粘贴至客户端桌面【Release任务A提交结果.docx】中对应的任务序号下。子任务三：HiVe安装配置本任务需要使用rt用户完成相关配置，已安装HadOOP及需要配置前置环境，具体要求如下：1、从宿主机/opt 目录下将文件 apache-hive-2. 3. 4-bin. tar. gz、 mysql-connector-java-5. 1. 47. jar 复制至U 容器 master 3 optsoftware 路径中（若路径不存在，则需新建），将容器master节点HiVe安装包解压到optmodule目录下，将命令复制并粘

9、贴至客户端桌面【Release任务A 提交结果.docx】中对应的任务序号下；2、设置HiVe环境变量，并使环境变量生效，执行命令hive -VerSiOn并将命令与结果截图粘贴至客户端桌面【Release任务A提交结果.docx】中对应的任务序号下；3、完成相关配置并添加所依赖包，将MySQL数据库作为HiVe元数据库。初始化Hive元数据，并通过schematool相关命令执行初始化，将初始化结果截图（范围为命令执行结束的最后10行）粘贴至客户端桌面【Release任务A 提交结果.docx】中对应的任务序号下。任务B：离线数据处理（25分）环境说明：服务端登录地址详见各任务服务端

10、说明。补充说明：各节点可通过Asbru工具或SSH客户端进行SSH访问；主节点MySQL数据库用户名/密码:root123456（已配置远程连接）；Hive 的配置文件位于optapache-hive-2. 3. 4-binconf/Spark任务在Yarn上用Client运行，方便观察日志。子任务一：数据抽取编写 Scala 代码，使用 Spark 将 MySQL 库中表 EnvironmentData, ChangeRecord, BaseMachine, MaChineData, ProduceRecord 全量抽取至UHiVe 的 ods 库中对应表 environmentdata,

11、changerecord, basemachine, machinedata, producerecord 中 o1、抽取MySQL的Shtd-industry库中EnvironmentData表的全量数据进入Hive 的OdS库中表environmentdata,字段排序、类型不变，同时添加静态分区，分区字段为etldate,类型为String,且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd ） o 使用 hive cli 执行 show partitions ods. environmentdata命令，将结果截图粘贴至客户端桌面【Release任务 B提交结果.do

12、cx】中对应的任务序号下；2、抽取MySQL的Shtd-industry库中ChangeRecord表的全量数据进入Hive的 OdS库中表ChangereCOrd,字段排序、类型不变，同时添加静态分区，分区字段为etldate,类型为String,且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods. changerecord 命令，将结果截图粘贴至客户端桌面【Release任务B提交结果.docx】中对应的任务序号下；3、抽取MySQL的Shtd-industry库中BaseMachine表的全量数据进

13、入Hive的OdS库中表basemachine,字段排序、类型不变，同时添加静态分区，分区字段为etldate,类型为String,且值为当前比赛日的前一天日期（分区字段格式为 yyyyMMdd）。使用 hive cli 执行 show partitions ods. basemachine 命令，将结果截图粘贴至客户端桌面【Release任务B提交结果.docx】中对应的任务序号下；4、抽取MySQL的Shtd_industry库中ProduceRecord表的全量数据进入Hive 的OdS库中表producerecord,剔除ProducePrgCode字段,其余字段排序、类型不变

14、，同时添加静态分区，分区字段为etldate,类型为String,且值为当前比赛日的前一天日期（分区字段格式为yyyyMMdd） o使用hive cli 执行show partitions OdS. producerecord命令,将结果截图粘贴至客户端桌面【Release任务B提交结果.docx】中对应的任务序号下；5、抽取MySQL的Shtd_industry库中MachineData表的全量数据进入Hive的 OdS库中表machinedata,字段排序、类型不变，同时添加静态分区，分区字段为etldate,类型为String,且值为当前比赛日的前一天日期（分区字段格式为 yyy

15、yMMdd）。使用 hive cli 执行 show partitions ods. machinedata 命令，将结果截图粘贴至客户端桌面【Release任务B提交结果.docx】中对应的任务序号下。子任务二：数据清洗编写Hive SQL代码，将OdS库中相应表数据全量抽取到Hive的dwd库中对应表中。表中有涉及到timestamp类型的，均要求按照yyyy-MM-dd HH：mm： ss, 不记录毫秒数，若原数据中只有年月日，则在时分秒的位置添加00:00:00,添加之后使其符合yyyy-MM-dd HH： mm： sso1、抽取OdS库中environment data的全量数

16、据进入Hive的dwd库中表 fact environment data,分区字段为etldate且值与OdS库的相对应表该值相等，并添加dwd_insert user、dwd insert time dwd modify_user dwd modify time 四歹l,其中 dwd_insert_user dwd modify_user 均填写 uuser, dwd_insert_time dwd_modify_time 均填写当前操作时间,并进行数据类型转换。使用hive cli按照envoid降序排序，查询前5条数据，将结果截图粘贴至客户端桌面【Release任务B提交结果.docx】中对应的任务序号下；2、抽取OdS库中changerec

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

10 金币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 全国职业技能比赛高职 GZ033 数据应用开发赛题第 08

第一文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：（全国职业技能比赛：高职）GZ033大数据应用开发赛题第08套.docx
链接地址：https://www.001doc.com/doc/1175637.html