Hadoop平台下Spark大数据数据推荐算法研究.docx
《Hadoop平台下Spark大数据数据推荐算法研究.docx》由会员分享,可在线阅读,更多相关《Hadoop平台下Spark大数据数据推荐算法研究.docx(6页珍藏版)》请在第一文库网上搜索。
1、Hadoop平台下Spark大数据推荐算法研究摘要:Hadoop是大数据挖掘的主要平台,在其平台上可以搭建起Yarn,Mahout,Storm,Graph1ab等框架,Spark框架是一个较为常见的任务调度框架,其不仅具有强大的处理能力,还具备数据处理时效性,其集结了机器学习、图计算、在线学习等功能,采用了统一的处理机制,速度是传统的数据处理办法的几十倍甚至是几百倍。论文建立起了基于HadOOP平台下SPark框架,检验了SPark框架对大数据的处理机制能够满足日益增值的大数据应用对速度的要求。关键词:Hadoop;Spark;大数据;机器学习;图计算;实时处理1引言Hadoop平台是开源组织
2、Apache基金会开发的分布式架构,是大数据的基础平台。Spark框架称为快数据,是基于内存的编程模型,它可以把中间的迭代过程不放在磁盘中,直接数据一个不落地在内存中执行,极大地提高了它的执行速度。Spark是大数据挖掘的新型利器。SPark的优点不仅仅体现在快,也体现在功能强大的整合能力,其整合能力体现在它的大数据能力的强大。SPark的框架分为4大模块:SparkSQ1-RDD(数据执行的基本单元),M11ib(机器学习),Graphx(图计算)和SParkStreaming(实时处理)1;这四个部分的数据处理单元都是RDD,所以整个框架形成了大数据处理各种应用场景编程的一致性。SPark
3、框架集机器学习、图计算和在线学习于一身,是一个简洁、强大、高效的框架。2Hadoop安装部署作为MaPRedUCe模型的实际标准实现,HadOoP已经被很多机构广泛采用,以存储和计算大型数据集。包括两个组件:1)Hadoop分布式文件系统(HDFS);2)HadoopMapReduce引擎。MaPRedUCe模型基于两个用户定义函数,即映射(map)和约减(reduce),这两个函数计算由键值对表示的数据记录。映射函数提取每个键值对的相关特征,而约减函数则使用这些特征得到期望的结果。表1Hadoop,Spark框架的配置HadoopSparkHDFS数据块大小128MBHDFS数据块大小128
4、MB副本因子3副本因子3映射器/约减器的堆大小3.3GB执行器的堆大小18.8GB每节点映射器4每节点WOrker数1每节点约减器4Worker核,谓18shuff1e(置乱)并行复制2010排序MB600MB10排序溢出百分比80%2.1 硬件准备利用实验室机房中闲置的PC机,通过集线器将PC机连接成局域网。本平台先选用4台PC机,由于HadoOP和SPark的可扩展性,可以很方便地添加新的结点到集群中。每台PC机器装有虚拟机1-2并搭载UbUntU32bit操作系统,配有4GB内存和20GB的存储。设置虚拟机的网络连接方式为桥接模式,并给虚拟机设置静态IP,确保虚拟机之间可以相互Ping通
5、。这样,就实现了机器之间的互联。选定其中1台PC机作为master(即为namenode),另外3台作为s1ave(即为datanode)。为了方便对集群的管理,在每台PC机上建立Hadoop用户,并给HadOOP用户赋予root权限。将有关HadOoP和SPark的操作均放在HadooP用户下进行。2 .2安装JDKHadoop是用JaVa语言开发的分布式计算框架,所以集群中的每个结点需要安装JDKo从官网上下载JDK的ubuntu版本jdk-8u25-1inu-i586.tar.gz到桌面上,在usr/Ioca/下新建java文件夹,并将jdb8u25Tinu-i586.Tar.gz从桌面
6、复制到java文件夹下,解压缩该文件。23配置SSh免密码登陆Hadoop集群在运行时需要通过ssh13免密码服务来进行通信。Ubuntu自带SSh客户端,需要自行下载SSh服务器。在连网的情况下,输入如下命令来安装SSh服务器:$sudoapt-getinsta11openssh-server$sudoapt-getupdate使用ssh登陆到集群的另一结点时需要输入结点的密码,为方便通信避免每次输密码的麻烦,需要配置集群之间SSh免密码登陆。3 SPark集群搭建上传Spark-1.6.Ibi-hadoop2.6.tgz后解压安装包到1inux上,使用命令tar-zxvfspark-1.6
7、.I-bin-hadoop2.6.tgz-C/home/zkpk解压安装包到指定位置.使用命令进入SPark安装目录进行配置,用命令CdConf/进入Conf目录,使用命令:mvspark-env.sh.Temp1atespark-env.sh进行重命名,然后修改文件,用命令:viSPark-env.sh打开配置文件,在该配置文件中添加如下配置,其中master是主节点的主机名。exportJAVA_HOME=/usr/javajdk1.7.0_71/exportSPARK_MASTER_IP=IiIaSterexportSPARK_MASTER_P0RT=7077然后保存退出.接下来蚤命名并
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 平台 Spark 数据 推荐 算法 研究