分布式存储架构技术基础.docx
《分布式存储架构技术基础.docx》由会员分享,可在线阅读,更多相关《分布式存储架构技术基础.docx(52页珍藏版)》请在第一文库网上搜索。
1、分布式存储架构技术基础久久【摘要】本文介绍了分布式存储的架构类型、分布式理论、不同的分布式文件系统和分布式键值系统等,较为系统详尽。全文约2万字,可收藏。目录一、集中存储结构二、分布式存储1、分布式存储的兴起2、分布式存储的重要性3、分布式存储的种类和比较三、分布式理论浅析1、一致性和可用性2、数据分布3、复制4、分布式协议5、跨机房部署四、分布式文件系统1、Goog1e文件系统(GFS)2、Taobao文件系统(TFS)3、FackbookHaystack文件系统4、CDN内容分发网络五、分布式键值系统1、 AmazonDynamo2、 TaobaoTiar3、 ETCD4、产品选型比较(E
2、tcd,Zookeeper,Consu1)一、集中存储结构说到分布式存储,我们先来看一下传统的存储是怎么个样子。传统的存储也称为集中式存储,从概念上可以看出来是具有集中性的,也就是整个存储是集中在一个系统中的,但集中式存储并不是一个单独的设备,是集中在一套系统当中的多个设备,比如下图中的EMC存储就需要几个机柜来存放。在这个存储系统中包含很多组件,除了核心的机头(控制器)、磁盘阵列(JBOD)和交换机等设备外,还有管理设备等辅助设备。结构中包含一个机头,这个是存储系统中最为核心的部件。通常在机头中有包含两个控制器,互为备用,避免硬件故障导致整个存储系统的不可用。机头中通常包含前端端口和后端端口
3、,前端端口用户为服务器提供存储服务,而后端端口用于扩充存储系统的容量。通过后端端口机头可以连接更多的存储设备,从而形成一个非常大的存储资源池。在整个结构中,机头中是整个存储系统的核心部件,整个存储系统的高级功能都在其中实现。控制器中的软件实现对磁盘的管理,将磁盘抽象化为存储资源池,然后划分为1UN提供给服务器使用。这里的1UN其实就是在服务器上看到的磁盘。当然,一些集中式存储本身也是文件服务器,可以提供共享文件服务。无论如何,从上面我们可以看出集中式存储最大的特点是有一个统一的人口,所有数据都要经过这个入口,这个入口就是存储系统的机头。这也就是集中式存储区别于分布式存储最显著的特点。如下图所示
4、:二、分布式存储分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并发场景下的Web访问问题。它采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。1、分布式存储的兴起分布式存储的兴起与互联网的发展密不可分,互联网公司由于其数据量大而资本积累少,而通常都使用大规模分布式存储系统。与传统的高端服务器、高端存储器和高端处理器不同的是,互联网公司的分布式存储系统由数量众多的、低成本和高性价比的普通PC服务器通过网络连接而成。其主要原因有以下三点(1)互联网的业务发展很快,而且注意成本消耗,
5、这就使得存储系统不能依靠传统的纵向扩展的方式,即先买小型机,不够时再买中型机,甚至大型机。互联网后端的分布式系统要求支持横向扩展,即通过增加普通PC服务器来提高系统的整体处理能力。(2)普通PC服务器性价比高,故障率也高,需要在软件层面实现自动容错,保证数据的一致性。(3)另外,随着服务器的不断加入,需要能够在软件层面实现自动负载均衡,使得系统的处理能力得到线性扩展。2、分布式存储的重要性从单机单用户到单机多用户,再到现在的网络时代,应用系统发生了很多的变化。而分布式系统依然是目前很热门的讨论话题,那么,分布式系统给我们带来了什么,或者说是为什么要有分布式系统呢?(1)升级单机处理能力的性价比
6、越来越低;企业发现通过更换硬件做垂直扩展的方式来提升性能会越来越不划算;(2)单机处理能力存在瓶颈;某个固定时间点,单颗处理器有自己的性能瓶颈,也就说即使愿意花更多的钱去买计算能力也买不到了;(3)出于稳定性和可用性的考虑如果采用单击系统,那么在这台机器正常的时候一切OK,一旦出问题,那么系统就完全不能用了。当然,可以考虑做容灾备份等方案,而这些方案就会让系统演变为分布式系统了;(4)云存储和大数据发展的必然要求云存储和大数据是构建在分布式存储之上的应用。移动终端的计算能力和存储空间有限,而且有在多个设备之间共享资源的强烈的需求,这就使得网盘、相册等云存储应用很快流行起来。然而,万变不离其宗,
7、云存储的核心还是后端的大规模分布式存储系统。大数据则更近一步,不仅需要存储海量数据,还需要通过合适的计算框架或者工具对这些数据进行分析,抽取其中有价值的部分。如果没有分布式存储,便谈不上对大数据进行分析。仔细分析还会发现,分布式存储技术是互联网后端架构的神器,掌握了这项技能,以后理解其他技术的本质会变得非常容易。3、分布式存储的种类和比较分布式存储包含的种类繁多,除了传统意义上的分布式文件系统、分布式块存储和分布式对象存储外,还包括分布式数据库和分布式缓存等,但其中架构无外乎于三种A、中间控制节点架构以HDFS(HadoopDistributionFi1eSystem)为代表的架构是典型的代表
8、。在这种架构中,一部分节点NameNode是存放管理数据(元数据),另一部分节点DataNode存放业务数据,这种类型的服务器负责管理具体数据。这种架构就像公司的层次组织架构,namenode就如同老板,只管理下属的经理(datanode),而下属的经理,而经理们来管理节点下本地盘上的数据。在上图中,如果客户端需要从某个文件读取数据,首先从NameNode获取该文件的位置(具体在哪个DataNOde),然后从该NameNode获取具体的数据。在该架构中NameNode通常是主备部署(SecondaryNameNode),而DataNode则是由大量节点构成一个集群。由于元数据的访问频度和访问量
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分布式 存储 架构 技术 基础