OLAP数据存储平台的选择及规划方案.docx
《OLAP数据存储平台的选择及规划方案.docx》由会员分享,可在线阅读,更多相关《OLAP数据存储平台的选择及规划方案.docx(17页珍藏版)》请在第一文库网上搜索。
1、O1AP数据存储平台的选择及规划方案【导读】本文介绍了列式存储和O1AP(联机分析),以及列式存储与O1AP的契合点,探讨了如何根据O1AP特点选择数据平台。【关键字】O1AP列式存储过去的历史阶段,IT行业对于数据库的选择相对比较单元化,基于行式存储的关系型数据库基本一统江湖。因此O1TP&O1AP业务均以关系型数据库理论为基础来设计数据视图以及数据模型。随着数据量的爆发式发展,人们逐渐发现传统行式存储在处理特殊业务场景时候的不足,尤其是面对海量数据的处理性能问题。于是,过去曾不为人知的一些列式数据库逐渐走上历史舞台。而且在应用的过程当中,人们基于特殊的场景进行一版又一版的修改和优化,使得某
2、些列式存储越来越适合今天的一些O1AP业务场景。今天我们就来分析分析这二者之间的内在缘由。1 .列式存储的特点说起列式存储或者列式数据库,大家可能最想知道它是何方妖魔?具有何种武艺?关于列式存储或者列式数据库,我们在专门的文章NOSQ1DB:Hbase列式数据库七问当中曾经以HbaSe为例对其基本概念、数据结构、数据存取特点、底层存储结构、性能优势等方面进行过详细的介绍。当然列式存储还有很多种产品,比如Bigtab1e,Cassandra,Druid,IIypertab1e,MariaDB,C1ickHouseo每一种产品虽然都具备列式存储的特点,但是在数据模型、存取特点、支持特性等各方面都各
3、有千秋。本次文章当中,我们仅从几个与O1AP业务类型相关的方面来分析。1.1 海量数据的单维度处理与精准定位数据的多维度处理首先,我们对比行式存储,其最大的区别就在于物理存储结构的不同,具体如下所示:表1.1二维数据表IDNameTit1e1JohnManager2Wi11iamEngineer表1.2行式存储物理存储格式1JohnManag2Wi11iEnginerameer表1.3列式存储物理存储格式12JohnWi11iManagEnginamereer以上表1I是我们要存储的逻辑数据,业务模型为一个二维关系表。表12是以行式存储的模型存储在物理存储页或者块儿上。表1.3是以列式存储的模
4、型存储在物理存储页或者块儿上。从表1.2和表1.3的特点上我们明显可以看出列式存储是以列数据为一个一个的连续存储区域,而行式存储是以若干行数据为一个个的连续存储区域。如果我们将以上表的数量扩展到10万条数据的规模,试想两个问题:Q1:如果我要查询Ti1e为Engineer的所有人?Q2:如果我要统计Ti1e为Engineer的人数比例?对于Q1,如果是行式数据库,那么多半要按照全表扫描进入内存,然后按照TiTIe字段筛选,取Name字段;如果是列式数据库,那么我只需要定位到TiTIe字段起始页,读取前后两个列的数据块进入内存,然后进行筛选即可。数据量越大由于行式存储要牺牲掉的IO代价越高。对于
5、Q2,如果是行式数据库,那多半要按照全表扫描进入内存,然后按照TiTIe字段排序,然后统计;如果是列式数据库,那么我只需要定位到TiTIe字段起始页,然后读取单列数据块进入内存,然后统计;对比发现这个操作节省的IO更是可观。显然我们发现在Q1Q2问题的解决上,列式存储要高效很多。我们知道所有的事物都是有利就有弊,假设换一个问题,那么效果如何呢,如Q3问题。Q3:如果我要查询ID=99的人的TiTIe?对于这个问题,如果是列式数据库,那么需要根据索引定位到ID列的页表,按照偏移找到ID,然后再定位到TiTIe列页表,按照偏移找到其对应的TiT1e(如果字段所占空间为变长,那就更麻烦了)。如果是行
6、式数据库,那么只需要根据索引定位到数据所在页表,然后顺序读取该行,那么所需数据就读到To显然行式存储的处理的复杂度远远低于列式存储。综上所述,在某些需要根据字段特点进行统计、排序、筛选的分析操作,列式存储的效率要比行式存储的效率高很多。数据量越大,这个优势越明显,到了单机资源无法处理的规模,这个优势就更加突出了。但是如果遇到需要精准定位到某一条数据,并且进行多字段处理的场景,列式存储就显得笨重很多。1.2数据压缩在传统的关系型数据库当中,由于我们对现实世界数据的高度抽象,使得我们可以用少量的关系型数据来表示显示世界当中的各种实体对象之间的逻辑关系,那么数据压缩似乎并不那么重要。随着数据量的线性
7、增加,尤其是互联网产生之后,现实世界当中出现了很多非二维表能够表述的海量数据,比如说媒体类数据、传感设备数据、网页类数据等等。一方面,数据量的线性增加带来了存储空间资源的线性扩张,另外一方面,在数据库当中对海量数据处理的时候会因为耗费大量的IO操作。在这两种情况下,重复数据的压缩技术就变得非常可观,无论从存储空间还是数据处理过程当中的IO效率方面都变得非常可观。同样,我们还是拿表12&13来看列式存储在这方面的特点:表1.2行式存储物理存储格式1JohnManag2Wi11iEnginerameer表13列式存储物理存储格式12JohnWi11iManagEnginamereer如上所示,无论
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- OLAP 数据 存储 平台 选择 规划 方案
