简历模板大数据开发工程师.docx
《简历模板大数据开发工程师.docx》由会员分享,可在线阅读,更多相关《简历模板大数据开发工程师.docx(2页珍藏版)》请在第一文库网上搜索。
1、项目描述:根据用户的评分、喜好,书籍的类型来推荐给用户优质内容,提高用户的粘性、用户留存率、注册率、消费比率。责任描述:1 .参与项目需求分析讨论,架构设计。2 .参与SparkStreaming实时推荐模块,SparkMI ib算法选择,优化。3 .参与Spark系统调优工作。技术要点:1 .把书城数据库中的书籍,结合用户信息,建立倒排索引存入到ElasticSearch中,供用户进行搜索关键字词。2 .通过Spark-SQL书籍总阅读量排行榜,一个月内书籍阅读量排行榜,统计小说的平均得分,和每个类别小说的平均得分Top10o3 .基于sparkMIib (ALS)求解用户评分模型,用户特征
2、矩阵,产品特征矩阵,保存到MongoDB,实现离线推荐业务。4 .训练模型Model,创建Rat i ng类型的数据集(uid, mid, score), ALS. train方法。5 .计算小说相似度矩阵,从Model中拿到小说的特征矩阵,计算笛卡尔积并过滤掉自身,计算两个特征矩阵的余弦相似度。6 .考察预测评分,计算均方根误差,带入隐语义的rank, iterations, lambda,来找出均方根最少的值。7 .猜你喜欢,通过对用户对小说的评分、评论内容,计算用户推荐矩阵,预测用户评分列表。项目二:塔读文学实时统计分析软件架构:Kafka+ElasticSearch+Redis+Spa
3、rkStreaming+Canal开发环境:IDEA+JDK1.8+Scala +Maven +Git项目描述:基于SparkStreaming的流式计算,实时分析用户的行为,广告的点击,每个类别的访问量,统计从哪里引流下载,每个类别的销售额。责任描述:1 .参与项目需求分析讨论,架构设计。2 .负责实时数据分析,如广告流量实时统计。技术要点:1. 使用SparkStreaming消费Kafka中的数据,使用broadcast减少网络I0流。2. Transform, foreachRdd算子,该函数每一个批次调度一次,可以优化数据库的链接。3. RDD计算可以使用mapPart it ion
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 简历模板 数据 开发 工程师