从Hadoop到ClickHouse.docx
《从Hadoop到ClickHouse.docx》由会员分享,可在线阅读,更多相关《从Hadoop到ClickHouse.docx(5页珍藏版)》请在第一文库网上搜索。
1、从 Hadoop 到 ClickHouse,现代 BI 系统有哪些问题?如何解决?2006年开源项目Hadoop的出现,标志着大数据技术普及的开始,大数据技术真正开始走向普罗大众。长期以来受限于数据库处理能力而苦不堪言的各路豪杰们,仿佛发现了新大陆,于是一轮波澜壮阔的技术革新浪潮席卷而来。从某种角度来看,以使用Hadoop生态为代表的这类非传统关系型数据库技术所实现的BI系统,可以称为现代BI系统。换装了大马力发动机的现代BI系统在面对海量数据分析的场景时,显得更加游刃有余。然而Hadoop技术也不是银弹,在现代BI系统的构建中仍然面临诸多挑战。在海量数据下耍实现多维分析的实时应答,仍旧困难重
2、重。(现代BI系统的典型应用场景是多维分析,某些时候可以直接使用OLAP指代这类场景。)Hadoop最初指代的是分布式文件系统HDFS和MapReduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn、Hive HBase Spark等数十种之多)。在大量数据分析场景的解决方案中,传统关系型数据库很快就被Hadoop生态所取代,我所处的BI领域就是其中之一。传统关系型数据库所构建的数据仓库,被以Hive为代表的大数据技术所取代,数据查询分析的手段也层出不穷,SparkImpala Kylin等百花齐放。Hadoop发展至今,早已上升成为大数据的代
3、名词,彷佛一提到海量数据分析场景下的技术选型,就非Hadoop生态莫属。虽然Hadoop生态化的属性带来了诸多便利性,例如分布式文件系统HDES可以直接作为其他组件的底层存储(例如HBase、Hive等),生态内部的组件之间不用重复造轮子,只需相互借力、组合就能形成新的方案。但生态化的另一面则可以看作臃肿和复杂。Hadoop生态下的每种组件都自成一体、相互独立,这种强强组合的技术组件有些时候显得过于笨重了。与此同时,随着现代化终端系统对实效性的要求越来越高,Hadoop在海量数据和高时效性的双重压力下,也显得有些力不从心了。我从2012年正式进入大数据领域,开始从事大数据平台相关的基础研发工作
4、。2016年我所在的公司启动了战略性创新产品的规划工作,自此我开始将工作重心转到设计并研发一款具备现代化SaaS属性的BI分析类产品上。为了实现人人都是分析师的最终目标,这款BI产品必须至少具备如下特征。一站式:下至数百条数据的个人Excel表格,上至数亿级别的企业数据,都能够在系统内部被直接处理。自服务,简单易用:面向普通用户而非专业1T人员,通过简单拖拽或搜索维度,就能完成初步的分析查询。分析内容可以是自定义的,并不需要预先固定好。实时应答:无论数据是什么体量级别,查询必须在毫秒至1秒内返回。数据分析是一个通过不断提出假设并验证假设的过程,只有做到快速应答,这种分析过程的路径才算正确。专业
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop ClickHouse