Hadoop生态系统及开发实训手册实训综合案例.docx

上传人：lao****ou

文档编号：855032

上传时间：2024-06-23

格式：DOCX

页数：50

大小：215.89KB

《Hadoop生态系统及开发实训手册实训综合案例.docx》由会员分享，可在线阅读，更多相关《Hadoop生态系统及开发实训手册实训综合案例.docx（50页珍藏版）》请在第一文库网上搜索。

1、模块七大数据日志分析综合项目案例7.1 项目目的当今时代，数据与我们息息相关，我们每天都会接触到各种软件、浏览各种网站，在生活上，也不仅仅是接触信息，其实也是在生产很多信息，留下很多的数据，只是人们可能没有察觉而已。本模块将会总结前面模块所学习的大部分组件，设计成了综合项目案例，让大家对大数据的认识提到一个新的高度，并且熟悉生产上的开发流程。7.2 项目意义本项目案例的日志指的是用户行为日志，用户行为日志可以类比于网站或者 app的眼睛，开发人员可以从中了解到用户的主要来源、喜欢的内容、用户的访问设备等等。也可以将此比喻为网站或者叩P的神经,通过用户行为日志的分析，可以清楚网站或者

2、app的优缺点，了解用户使用过程中遇到的各种问题以及反馈, 进而有利于优化自己的网站或者app,提升用户的体验。此外，通过日志分析，还可以通过用户的行为日志，挖掘出有价值的信息，将信息进行归类，划分主要的倾向人群，有利于实现业务需求。7.3 项目背景此处用户每次访问网站或者app时，都会留下很多的行为数据，这些行为包括访问、浏览、搜索、点击等等。每一个行为动作所产生的数据都可以被后台采集到。比如说点击的URL、从哪个URL跳转过来的（referer）、页面上的停留时间等等。当有了数据之后，就可以进行大数据的分析统计等等工作了。7.4 项目架构先来了解一下本次项目的架构，再来总结数据处

3、理的流程，如图7-1所示。Webserver日志路径：homeaccess.logECharts图7-1项目架构流程图当访问网站或者使用app的时候，都会产生许多日志信息，存放到日志服务器里面。框架图中WebSerVer指的是网站或者app的后台，而本实训将日志信息直接存放到服务器的homeaccess.log路径下，然后通过Flume对采集到的信息进行路由，此处路由分两条主线，一条是直接将数据采集到HDFS,让MapReduce 对HDFS上的数据进行清洗或者离线分析，分析完后再将结果存放到传统数据库中，此处是使用MySQL。FlUme路由的另一条主线是与Kafka整合，将消费的数

4、据存储到由HBase中，当然此处的Kafka也可以与Spark Streamings StOrm、Flink 等组件整合，实现实时流处理主线。Kafka与HBaSe整合完后，HBaSe可以与传统的业务系统整合，也可以与其他组件整合，如图7-1中将HBaSe与HiVe进行整合，目的是实现通过类SQL对HBaSe中的数据进行高效的分析。最后，这两条主线可以与ECharts整合，对数据进行可视化。1 .数据处理流程综上所述，可以将数据处理流程归结为五大步骤：数据采集- 数据清洗- 数据分析- 数据入库- 数据可视化1）数据采集可以使用FIUme对数据进行采集,将web日志写入到HDFS Kaf

5、ka或者HBaSe 等等中。2）数据清洗可以使用MaPRedUce、Spark、Hive、FIink或者其他的一些分布式计算框架，对数据进行清洗，先过滤掉没有意义的数据，如脏数据或者与业务不相关的数据等等，清洗完之后的数据可以存放在HDFS或者HiVe、SParkSQL等等中。3）数据处理按照需求对相应业务进行统计和分析，可以使用数据清洗时的计算框架。4）数据处理结果入库处理的结果可以存放到RDBMS、NoSQL等数据库中。5）数据可视化当数据入库之后，可以开发各种各样的图形化界面对分析结果进行展示，比如说饼图、柱状图、地图、折线图等等，可以借助的工具有ECharts. DataV. H

6、UE、 Zeppelin Kibana 等。7.5 项目需求当获取到了数据，可以从中挖掘出一些价值，想要挖掘什么价值，取决于业务能力水平，而能否实现，则取决于技术本身的能力以及所拥有的数据维度有多广有多完善，而实现的难度则与数据的质量息息相关。本次项目的数据采用模拟的方式生成，自定义的数据有ip、时间、访问的URL、跳转过来的网址、状态码。主要有5个字段，当然，此数据可以自行修改自行生成，也可以拿真实的数据来操作。基于数据，可以实现的业务场景有非常多，自己可以尝试去多挖掘。比如说，统计哪三个省份的用户访问网站最频繁？统计访问网站最频繁的时间段是哪个？统计过去10个小时内，用户的访

7、问量有多少？还有很多，都可以实现。为了更好地与前面模块的内容衔接，也为了降低学习的难度，本次项目的业务需求是统计每天的用户访问量。7.6 业务实现1 .准备工作需要准备好开发工具和所需要的软件的安装包，前面的实训已经准备好了。所以此处不再做过多说明。在实操的时候，应确保各软件的版本与本书一致，不一致也应该确保大版本保持一致；如不相同，遇到问题，请先自行搜索与自己版本相关的解决方案。2 .效果提前预览项目的最终效果如图7-2所示。图72项目展示效果图说明：具体的次数每个人会不相同。3 .实现步骤接下来将一步一步来实现，主要分为以下七大步骤：步骤一、模拟日志生产步骤二、编写FIUme配置文件

8、步骤三、Flume整合Kafka步骤四、Flume与HDFS Kafka整合步骤五、Kafka与HBase整合步骤六、MaPRedUCe分析HDFS上的数据并写入到MySQL步骤七、ECharts与MySQL整合实现数据可视化1）模拟日志生产新建一个名称为Iogstat的项目，关键设置选项如图7-3所示。回 New ProjectNewPrqjectName:IogstatEmpty Project,.、/_人L Location:leaPrqjectsGeneratorsProject will be created in: ldeaProjectslogstatm Maven Archet

9、ypeCreate Git repositoryJavaFXLanguage:JavaKotlin GrvyHTML +K Kotlin Multiplatform，ComposeMuItipIatformBuild system:tell Maven Gradle=DEPIuginWI11 .de OpenJDK version 11.0.6M AndroidAdd sample code Advanced SettingsGroupld: com.bigdata.hadoopArtifactld: Iogstat mainavaxsi: SchemaLocation-htjtp : /Zm

10、ay resol testI pom.xml ternal LibrarF=f*hc jnrNewX cut CopyCopy Path/Reference.Ctrl+Ctrl+CJava Class Kotlin Class/FileFile舒 Scratch FileEB PackageCtr +Alt+Shft+I图 7-5 新建 PackageNew Packagecom.bigdata.hadoop.generate图7-6给新建包命名新建GenerateLOg类，里面编写模拟日志生成的主程序。操作过程如图77、图7-8所示。j 4.0.0TCombgdatah吧。吃enera回.

11、NeW G JavaCIas5图7-7新建Class图7-8给新建类命名编写代码package com.bigdata.hadoop.generate;import java.io.File;import java.io.FileOutputStream;import java.io.IOException;import java.text. DateFormat;import java.text.SimpleDateFormat;i mport java.util.Calendar;import java.util.Date;import java.util.Random;i mport j

12、ava.util.concurrent.Ti meUnit;public class GenerateLog 一、数据定义1、url地址public static StringlJ urlPaths = article102.htmi,r,article103.htmarticle104.html,article105.html,article106.htmi,r,article/107.htmarticle108.html,article109.html,video322r,taglist)；2、ip数字public static String ipSplices = ,102, 71h,

13、,145, 33h, ,67m, 54h, 164m, m12,;/3、http 网址public static String HttpReferers = https:WWWs?Wd=%s,https:SearC4、搜索关键字public static String SearchKeyword = ”复制粘贴玩大数据”， ”网站用户行为分析”， Elasticsearch 的安装”， Kafka的安装及发布订阅消息系统”, window?系统上Centos7的安装* ”学习大数据常用Linux命令* Docker 搭建 Spark 集群”5、状态码public static String S

14、tatusCodes = 200, ,404, 500);二、随机生成数据 1、随机生成ippublic static String samplelp() int ipNum;String ip =,;for (int i = O; i 4; i+) ipNum = new Random().nextInt(ipSplices.length);ip += . + ipSplicesipNum;)return ip.substring(l);12、随机生成时间public static String formatTime() DateFonnat dateFormat = new SimpleDateFormatCyyyy-MM-dd HH:mm:ss);Calendar calendar = CalendargetInstanceO;/获取当前时间Date CurrentDate = calendar.getTime();/设置一个起始时间(七天前)calendar.add(Calendar.DATE, - 7);Date StartDa