《大数据工程师求职简历模板.docx》由会员分享,可在线阅读,更多相关《大数据工程师求职简历模板.docx(4页珍藏版)》请在第一文库网上搜索。
1、XXX简历-大数据工程师姓名:XXXO工作经验:X年I电话: 性别:X0毕业学校:xG邮箱:xxxxxx画年龄:XXg学历:XXQ现居:XX求职意向目标职能:大数据开发工程师目前状态:离职随时到岗目标地点:北京目标薪资:面议Q工作经历xxx.08 - xxxx.02xxxx时代科技有限公司大数据工程师个人技能1 .熟练掌握HadOOP底层架构、HDFS存储机制和读写流程、MaPRedUCe框架原理和工作机制、Yarn组 成架构和调度机制、MR调优以及高可用的部署。2 .熟练掌握Hive数仓搭建,能够熟练使用HQL进行企业级开发,掌握HQL中的相关函数和HQL语句执 行流程,以及Hive的压缩格
2、式和存储格式的选择,Hive杳询的相关优化措施。3 .熟练掌握HBase底层数据存储原理与读写流程,能够熟练使用HBase进行分布式的、非结构化的存储, 能够通过预分区和RowKey设计处理HBase的数据倾斜问题,能够配置HBase的高可用和对其内存进 行优化。4 .熟练掌握Flume内部的结构和原理,以及事务机制,能够使用Flume进行分布式的海量日志采集,聚合 和传输。能够自定义拦截器链对传输数据进行过滤与分类,以及使用Ganglia对其进行监控。5 .熟练掌握Kafka内部架构和写入流程,能够编写Kafka的生产者和消费者的高级API与彳氐级API、Kafka 拦截器、KafkaStr
3、eam进行数据清洗。6 .熟练掌握SPark的工作原理,能够熟练使用SParkC ore、SparkSQLx SParkStreaming进行编程,能够 对Spark进行调优,了解Spark内核。7 .熟练掌握ZOokeePer工作原理,了解FIink基本架构、流式处理原理、核心计算框架。8 .熟练使用MySQLx Redis数据库,能够使用MongoDBs EIasticSerach数据库。9 .熟练使用Sqoop对MySQL的数据进行导入与导出,Azkaban和Oozie进行任务调度,GitHub管理项 目。10 .熟练使用Java、SCala进行编程,熟悉使用LinUX操作系统,能够使用
4、SheII、Python编写脚本。项目经历项目名称:XX时代数仓项目软件架构:Flume+Kafka+ Hadoop+Zookeeper+HiveSpark+MySQL+Azkaban+Sqoop开发工具:IDEA+JDK1.8+Scala+Maven+Git项目描述:对果敢时代的用户行为数据和业务交互数据进行采集、清洗、管理、维护、并进行统计、分析、挖掘, 提炼出有价值的信息,基于事实的管理来推动决策过程与实现价值增长。L【数据采集】采用Flume+Kafka+Flume架构,通过前端埋点,Nginx负载均衡,Tomcat的Iog4j写 日志,Flume采集、清洗、分类日志,Kafka缓存,
5、Flume消费Kafka数据,采集行为日志到HDFS中。2 .【数仓搭建】数据仓库采用ODS+DWD+DWS+ADS四层分层搭建。将MySQL中的业务交互数据通 过Sq。P导入到ODS层。进而将ODS层中的业务交互数据与用户行为数据通过SParkSQL进行清洗、更 改存储方式、更改压缩方式、进行维度建模后转存到数据仓库DWD层。计算数据仓库DWD层的复用 度,将复用度高的数据进行轻聚合后转存到数据仓库DWS层。ADS层中以DWD层或者DWS层的数据为 基础,通过具体需求聚合数据,组成各种统计报表,统计结果最终同步到MySQL数据库供Bl等查询使用。3 .【数据分析】流程分析:登录、浏览、下单&
6、支付、交易成功、售后等。用户分析:用户价值分析、用 户粘性分析、满意度分析等。商品分析:点击量、转化率、加购率、收藏率、购买人数、销量、销售额、热 门品类排行榜、动销率、次品率、投诉率、售罄率、库存量等。责任描述:1 .参与了项目需求的讨论与分析、HiVe表的设计、架构的搭建。2 .负责了用户分析部分的需求实现:活跃用户统计、新增用户统计、用户转化率分析、用户留存率分 析、用户流失率分析等。3 .负责了部分流程分析与部分商品分析的需求实现:收藏率、加购率、GMV分析、热门品类排行榜、热 门商品ToPI0、动销率等。4 .通过Sqoop将数据同步到MySQL中,编写执行脚本,并通过Azkaban
7、进行调度执行。 技术要点:1 .将MySQL中的业务交互数据通过Sqoop导入到Hive中,并编写定时导入脚本。2 .搭建四层数据仓库,为原始数据层ODS、明细数据层DWD、服务数据层DWS、应用数据层ADS。3 .存储在ODS层的原始数据表采用行式存储,采用Gzip压缩。将ODS层的原始数据通过SparkSQL 进行清洗、改为Parquet列式存储、改为Snappy压缩格式后转存到数据仓库DWD层。4 .对数据进行维度建模,采用维度较少的星型模型,减少Join ,即减少Shuffle ,有效的提高性能。5 .分析DWD层数据的复用性,将复用度高的数据进行轻聚合后转存到数据仓库DWS层。6 .
8、 ADS层中以DWD层或DWS层的数据为基础,通过具体的业务需求聚合数据,组成各种统计报表。7 .配置Spark与外置Hive数据仓库的关联。自定义UDF函数,实现对各种需求的统计分析。8 .对不同类型的表,定制不同的同步策略,创建并维护拉链表。9 .对HiVe查询进行优化,提升效率,防止数据倾斜。 : MapJoin,行列过滤、分桶分区、合理设置 M叩数和RedUCe数、并行执行、推测执行、JVM重用、严格模式等。10 .对Spark查询进行优化。对复用度高的RDD进行缓存或CheckPoint,对较大对象进行广播变量。项目名称:大V店实时分析项目软件架构:FlUme+Kafka+ Hado
9、op+Zookeeper+Canal+MySQL+Spark+Redis+EIasticSearch开发工具:IDEA+JDK1.8+Scala+Maven+Git项目描述:对大V店用户的实时行为数据进行采集,实时分析,帮助营销人员更好的了解其业务对用户行为的影响。L【实时数据采集模块】在Kafka之前实时数据的采集与离线的采集共用一套FlUme+Kafka日志采集 系统。在Kafka之后,离线数据再通过Flume将Kafka中数据消费到HDFS中。而实时数据直接通过Kafka 来缓存用户行为日志。业务交互数据通过Canal监控MySQL数据库的写操作并通过编写的Java程序将业务 交互数据存
10、储到Kafka中。2 .【实时统计分析模块】实时数据处理系统中的SParkStreaming使用了 Kafka低级消费者对Kafka中的 日志数据进行消费,并通过Checkpoint机制和Z。KeePer保存机制对Kafka中主题各个分区的OffSet进行 手动保存。最后通过流式处理实现项目需求,进而保存到日asticSearch中并建立倒排索引。3 .【实时数据分析】当日活跃用户量、当日新增用户量、统计各个时段用户浏览量,当日订单量与交易金 额、实时点击量统计、当日PV与UV等需求的实时统计。责任描述:1 .使用FlUme+Kafka架构对日志数据进行采集、处理与缓存。参与了项目需求的分析与
11、讨论。2 .负责了 SparkStreaming与KafkaStream的对接,部分数据通过Redis进行去重。3 .负责了对当日活跃用户量、当日新增用户量、当日订单量与交易金额的实时需求进行实现。4 .对SPark的实时计算效率进行调优。技术要点:1 .通过搭建Flume+Kafka架构,将用户行为数据实时的采集到Kafka中。2 .通过Canal伪装成Mysql的Slave进行数据拉取,将拉取的业务交互数据信息通过编写的Java程序实 时存储到Kafka中。3 .开启MySQL的binlog,并修改Canal配置。4 .采用Kafka低级API,手动维护Kafka的offset至U Zoo
12、Keeper中。5 .通过SparkStreaming对实时数据进行清洗,主要检查数据合法性和数据业务逻辑性。6 .通过SparkStreaming消费Kafka中的健并保持到EIasticSerach ,并指定Ik分词器建立索引。7 .通过SparkStreaming将数据存入Redis中的Set类型中,指定Key为时间戳,Value为所要去重数 据,对部分需要去重统计的数据进行去重。8 .自定义累加器,对共享变量进行更新。9 .搭建数据发布的接口,供可视化界面进行杳询。11.对Spark进行优化,对复用度高的RDD进行Cache或CheckPoint,对较大的对象进行广播变量。 使用red
13、uceByKey算不弋替groupByKey算子,使用mapPartition算而弋替map算子,使用 foreachPartitions 代替 foreach ,在 filter 进行 coalesce 等。项目名称:大V店数据采集项目软件架构:Nginx+Flume+Kafka+Zookeeper+Hadoop+Hive+Azkaban开发工具:IDEA+JDKL8+Maven+Git项目描述:对大V店的用户行为数据进行采集数据,为后续离线计算与实时计算提供数据依据。L【定制化日志模块】在APP前端进行埋点采集用户行为日志,规范服务节点统计日志信息为:启动日志(StartupLog )、访
14、问日志(EventLog )和错误日志(EerrorLog ) o2.【日志采集模块】APP客户端的行为日志数据定时向服务器进行发送,服务器采用NginX实现负载均 衡,Nginx将日志数据负载均衡到多个Tomcat上,Tomcat服务器通过Iog4j将日志数据写入日志文件中, 通过日志数据的落盘实现业务系统与数据采集系统的解耦。随后采集Flume将对应的Tomcat生成的日志文 件采集到其拓扑结构中并通过自定义ETL拦截器、类型区分拦截器将日志数据根据分类存储到不同的Kafka主 题中,再通过消费Flume消费到HDFS中,执行脚本存入Hive数据仓库,作为日志原始数据存储。责任描述:1 .
15、参与定制化日志模块所用字段的需求分析,采集框架的搭建。2 .在 Flume+Kafka+Flume 架构中,对 Flume 和 Kafka 进行调优。3 .自定义拦截器链对Flume中的日志进行清洗与分类,写入Kafka不同主题中。4 .编写Flume消费Kafka 写到HDFS的程序,编写更新Hive数据表脚本。技术要点:1 .搭建Flume+Kafka+Flume架构,对数据进行缓冲解决消费者与生产者处理速度不一致问题,提高峰 值处理能力,保证数据安全有效传输。2 .配置采集FlUme的Agent文件。SoUrCeS的类型为TailDir ,并指定拦截链类型信息。ChanneIS的类 型为Memoryo Sinks的类型是KafkaSink ,并存指定存入Kafka的主题。3 .编写第一层Flume的ETL拦截器(实现Interceptor接口),编写数据清洗工具类(过滤数据格式不 符合要求的和不是JSON类型的数据),在拦截器的intercept方法中调用,实现对嘘的清洗。4 .编写第一层Flume的日志类型拦截器(实现Interceptor接口),根据传输单元Event的getBody() 方法获取传输的日志类型信息,将其放入Event的Header中进行日志类型分类。5 .配置消费 Flume 的 Agent 文件。Source 的类型为 Ka