Hadoop生态系统及开发 实训手册 实训综合案例.docx
《Hadoop生态系统及开发 实训手册 实训综合案例.docx》由会员分享,可在线阅读,更多相关《Hadoop生态系统及开发 实训手册 实训综合案例.docx(50页珍藏版)》请在第一文库网上搜索。
1、模块七大数据日志分析综合项目案例7.1 项目目的当今时代,数据与我们息息相关,我们每天都会接触到各种软件、浏览各种 网站,在生活上,也不仅仅是接触信息,其实也是在生产很多信息,留下很多的 数据,只是人们可能没有察觉而已。本模块将会总结前面模块所学习的大部分组 件,设计成了综合项目案例,让大家对大数据的认识提到一个新的高度,并且熟 悉生产上的开发流程。7.2 项目意义本项目案例的日志指的是用户行为日志,用户行为日志可以类比于网站或者 app的眼睛,开发人员可以从中了解到用户的主要来源、喜欢的内容、用户的访 问设备等等。也可以将此比喻为网站或者叩P的神经,通过用户行为日志的分析, 可以清楚网站或者
2、app的优缺点,了解用户使用过程中遇到的各种问题以及反馈, 进而有利于优化自己的网站或者app,提升用户的体验。此外,通过日志分析, 还可以通过用户的行为日志,挖掘出有价值的信息,将信息进行归类,划分主要 的倾向人群,有利于实现业务需求。7.3 项目背景此处用户每次访问网站或者app时,都会留下很多的行为数据,这些行为包 括访问、浏览、搜索、点击等等。每一个行为动作所产生的数据都可以被后台采 集到。比如说点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时 间等等。当有了数据之后,就可以进行大数据的分析统计等等工作了。7.4 项目架构先来了解一下本次项目的架构,再来总结数据处
3、理的流程,如图7-1所示。Webserver日志路径:homeaccess.logECharts图7-1项目架构流程图当访问网站或者使用app的时候,都会产生许多日志信息,存放到日志服务 器里面。框架图中WebSerVer指的是网站或者app的后台,而本实训将日志信息 直接存放到服务器的homeaccess.log路径下,然后通过Flume对采集到的信息 进行路由,此处路由分两条主线,一条是直接将数据采集到HDFS,让MapReduce 对HDFS上的数据进行清洗或者离线分析,分析完后再将结果存放到传统数据库 中,此处是使用MySQL。FlUme路由的另一条主线是与Kafka整合,将消费的数
4、据存储到由HBase中,当然此处的Kafka也可以与Spark Streamings StOrm、Flink 等组件整合,实现实时流处理主线。Kafka与HBaSe整合完后,HBaSe可以与传 统的业务系统整合,也可以与其他组件整合,如图7-1中将HBaSe与HiVe进行 整合,目的是实现通过类SQL对HBaSe中的数据进行高效的分析。最后,这两条 主线可以与ECharts整合,对数据进行可视化。1 .数据处理流程综上所述,可以将数据处理流程归结为五大步骤:数据采集- 数据清洗- 数据分析- 数据入库- 数据可视化1)数据采集可以使用FIUme对数据进行采集,将web日志写入到HDFS Kaf
5、ka或者HBaSe 等等中。2)数据清洗可以使用MaPRedUce、Spark、Hive、FIink或者其他的一些分布式计算框架, 对数据进行清洗,先过滤掉没有意义的数据,如脏数据或者与业务不相关的数据 等等,清洗完之后的数据可以存放在HDFS或者HiVe、SParkSQL等等中。3)数据处理按照需求对相应业务进行统计和分析,可以使用数据清洗时的计算框架。4)数据处理结果入库处理的结果可以存放到RDBMS、NoSQL等数据库中。5)数据可视化当数据入库之后,可以开发各种各样的图形化界面对分析结果进行展示,比 如说饼图、柱状图、地图、折线图等等,可以借助的工具有ECharts. DataV. H
6、UE、 Zeppelin Kibana 等。7.5 项目需求当获取到了数据,可以从中挖掘出一些价值,想要挖掘什么价值,取决于业 务能力水平,而能否实现,则取决于技术本身的能力以及所拥有的数据维度有多 广有多完善,而实现的难度则与数据的质量息息相关。本次项目的数据采用模拟 的方式生成,自定义的数据有ip、时间、访问的URL、跳转过来的网址、状态码。 主要有5个字段,当然,此数据可以自行修改自行生成,也可以拿真实的数据来 操作。基于数据,可以实现的业务场景有非常多,自己可以尝试去多挖掘。比如 说,统计哪三个省份的用户访问网站最频繁?统计访问网站最频繁的时间段是哪 个?统计过去10个小时内,用户的访
7、问量有多少?还有很多,都可以实现。为了更好地与前面模块的内容衔接,也为了降低学习的难度,本次项目的业 务需求是统计每天的用户访问量。7.6 业务实现1 .准备工作需要准备好开发工具和所需要的软件的安装包,前面的实训已经准备好了。 所以此处不再做过多说明。在实操的时候,应确保各软件的版本与本书一致,不一致也应该确保大版本 保持一致;如不相同,遇到问题,请先自行搜索与自己版本相关的解决方案。2 .效果提前预览项目的最终效果如图7-2所示。图72项目展示效果图说明:具体的次数每个人会不相同。3 .实现步骤接下来将一步一步来实现,主要分为以下七大步骤:步骤一、模拟日志生产步骤二、编写FIUme配置文件
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop生态系统及开发 实训手册 实训综合案例 Hadoop 生态系统 开发 手册 综合 案例