主流分布式存储技术平台分析.docx
《主流分布式存储技术平台分析.docx》由会员分享,可在线阅读,更多相关《主流分布式存储技术平台分析.docx(9页珍藏版)》请在第一文库网上搜索。
1、主流分布式存储技术平台分析应公【摘要】本文对分布式存储技术架构体系进行综述分析,区分了不同技术体系应用场景,对不同体系的分布式存储技术典型产品特性进行分析,明确不同技术产品的数据模型、数据访问、数据性能、数据量级等不同层面的优劣势。希望大家能够通过这些典型特性的了解以及对具体业务场景的数据需求挖掘,能将比较优秀的数据存储技术匹配到最合适的业务场景中。1 .为什么会引入分布式存储技术从70年代到2000年左右,数据存储基本上是伴随着IBME.F.Code提出的关系模型理论,以关系型数据库(Orac1e、DB2.MySQD为数据管理平台,以集中式存储产品为数据最终载体形成的坚实的数据存储架构体系。
2、2000年后,但是随着数据量的增加,单机的数据库瓶颈已经不能满足大数据量的需求,从数据管理层面开始诞生分库分表的方案。自2006年谷歌发了三篇论文(GFS、BigTab1e.Map-Reduce)之后,在数据管理层面以及数据载体层面不断涌现各类分布式产品,例如GFS、GPFS.HFS.DFS等各类分布式文件系统,例如HadoOp、HbaSe、Redis、MongoDB、RoCkDB等系列分布式数据管理平台。总而言之,数据量的爆发式增长催生了数据应用领域的各种新需求,数据应用领域的各种新需求驱动了数据管理层面以及数据载体层面的分布式变革。2 .主流分布式文件系统技术分析主流分布式文件系统技术主要
3、有GPFS、GFS、HDFS、DFS、CIUSterFS等很多,下面我们以同类或类似技术体系的典型产品为代表进行阐述。2.1 GFSGFS是基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引查询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读写;是基于文件数据存储场景设计的架构。接下来,我们来看GFS有哪些具体特性,选型的时候应该如何考虑?(1) GFS是一种适合大文件,尤其是GB级别的大文件存储场景的分布式存储系统。(2) GFS非常适合对数据访问延迟不敏感的搜索引擎服务。(3) GFS是一种有中心节点的分布式架构,MaSter节点是单
4、一的集中管理节点,即是高可用的瓶颈,也是可能出现性能问题的瓶颈。(4) GFS可以通过缓存一份部分Metadata到CIient节点,减少C1ient与Master的交互。(5) GFS的MaSter节点上的OPerationIog和CheCkPc)int文件需要通过复制方式保留多个副本,来保障元数据以及中心管理功能的高可用性。2. 2HDFSHDFS的架构原理与GFS基本类似,但是是基于GFS做了一些改进之后形成的一套技术体系。同样,它基于文件系统实现的分布式存储系统,是属于有中心的分布式架构;通过对中心节点元数据的索引查询得到数据地址空间,然后再去数据节点上查询数据本身的机制来完成数据的读
5、写;是基于文件数据存储场景设计的架构。接下来,我们来看HDFS有哪些具体特性,选型的时候应该如何考虑?(1) IIDFS的默认最小存储单元为128M,比GFS的64M更大。(2) HDFS不支持文件并发写,对于单个文件它仅允许有一个写或者追加请求。(3) HDFS从2.0版本之后支持两个管理节点(NameNode),主备切换可以做到分钟级别。(4) HDFS更适合单次写多次读的大文件流式读取的场景。(5) HDFS不支持对已写文件的更新操作,仅支持对它的追加操作。2. 3G1usterFSG1usterFS虽然是基于文件系统的分布式存储技术,但是它与GFS架构有本质的区别,它是去中心化的无中心
6、分布式架构;它是通过对文件全目录的DHT算法计算得到相应的Brike地址,从而实现对数据的读写,这与GFS以及HDFS等通过元数据检索实现数据寻址的方式有极大的不同。接下来,我们来看GIUSterFS都有哪些具体特性,选型的时候应该如何考虑?*(1) G1USterFS是采用无中心对称式架构,没有专用的元数据服务器,也就不存在元数据服务器瓶颈。元数据存在于文件的属性和扩展属性中。(2) G1USterFS可以提供Raid0、RaidhRaid1+0等多种类型存储卷类型。(3) G1USterFS采用数据最终一致性算法,只要有一个副本写完就可以Commito(4) GIUSterFS默认会将文件
7、切分为128KB的切片,然后分布于卷对应的所有Brike当中。所以从其设计初衷来看,更适合大文件并发的场景。(5) G1usterFS采用的DHT算法不具备良好的稳定性,一旦存储节点发生增减变化,势必影响卷下面所有Brike的数据进行再平衡操作,开销比较大。(6) G1usterFS文件目录利用扩展属性记录子卷的中brick的hash分布范围,每个brick的范围均不重叠。遍历目录时,需要获取每个文件的属性和扩展属性进行聚合,当目录文件较多时,遍历效率很差。3.主流分布式对象存储技术分析目前应用比较广发的分布式对象存储技术基本都是基于Swift或者Ceph体系衍生出来的产品。3.1 CephC
8、eph首先是一种对象存储技术,也就是说它存储数据的机制与我们之前接触的文件系统机制是完全不一样的,它是将数据抽象为对象和对象标识来进行管理。从架构上来讲,CePh相对类似于G1USterFS的无中心化架构;它是通过对对象的哈希算法得到相应的BUCket&Node地址,从而实现对数据的读写。接下来,我们来看CePh都有哪些具体特性,选型的时候应该如何考虑?(1) CePh是一种统一了三种接口的统一存储平台,上层应用支持ObjeCt、B1ock.Fi1eo(2) CePh采用CrUSh算法完成数据分布计算,通过Tree的逻辑对象数据结构自然实现故障隔离副本位置计算,通过将BUCket内节点的组织结
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 主流 分布式 存储 技术 平台 分析