未来五个大数据发展趋势.docx
《未来五个大数据发展趋势.docx》由会员分享,可在线阅读,更多相关《未来五个大数据发展趋势.docx(16页珍藏版)》请在第一文库网上搜索。
1、未来五个大数据发展趋势2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。当我们已经进入2022年,我们可以清楚地看到软件工程的最佳实践已经开始注入数据:数据质量监控和可观察性
2、、不同ETL层的专业化、数据探索和数据安全都在2021年蓬勃发展,并将继续下去,因为从早期创业公司到价值数十亿美元的财富500强企业的数据驱动型公司继续将数据存储和处理到数据库、云数据仓库、数据湖和数据湖仓。下面你会发现我们预测的5个数据趋势将在2022年确立或加速。01数据分析师的崛起如果说2020年和2021年是关于数据工程师的崛起(根据Dice的科技工作报告,这是最重要的)。fastest-growing job in tech in 2020),那么在 2022 年,分析工程师将明确进入人们的视线。云数据平台的崛起已经改变了一切。传统的技术结构,如立方体和单体数据仓库,正在让位于更灵活
3、和可扩展的数据模型。此外,转换可以在云平台内对所有数据进行。ETL在很大程度上已经被ELT所取代。控制这种转换逻辑的是谁?分析工程师。这个角色的兴起可以直接归功于云数据平台和数据构建工具(dbt)的兴起。Dbt labs是dbt背后的公司,实际上创造了这个角色。dbt社区在2018年开始有五个用户。截至2021年11月,有7300名用户。分析工程师是自然演化的一个例子,因为数据工程很可能最终成为多个T型工程角色,由开发自助式数据平台而不是开发管道或报告的工程师驱动。分析工程师首先出现在云端原生者和初创公司,如Spotify和Deliveroo,但最近开始在企业公司如捷蓝航空中获得地位。你可以阅
4、读here an art icleDel iveroo工程团队关于分析工程在其组织中的出现和演变的文章。我们看到越来越多的现代数据团队将分析工程师加入他们的团队,因为他们正变得越来越以数据为导向,并建立自我服务的数据管道。根据Linkedln招聘信息的数据,典型的 must - have ski Ils for an analytics engineer 包括 SQL、dbt Python和与现代数据栈相关的工具(如Snowflake、Fivetran、Prefect、Astronomer等)。Job postings on LinkedlnAnalytics EngineerIn婕din j
5、ob posmg data 1 st of Ocember 2021Data EngineerData Scientist截至2021年12月1日的Linkedln职位发布数据根据Linkedln的数据,对数据科学家的需求大约是分析工程师的2. 6到2.7,而且这个差距还在继续缩小。在2022年,我们预计这一差距将进一步缩小,因为对分析工程师的需求继续增长,接近于对数据科学家(曾被称为the sexiest job in tech) o02数据仓库与数据湖的竞争数据界很少有人错过了 2021年底Databricks和Snowflake之间非常公开的对决。这一切开始于Databricks声称其数
6、据湖库技术的TPC-DS基准记录,并说一项研究表明它比Snowflake快2. 5倍。Snowflake表示,Databricks缺乏诚信,并表示该研究有缺陷,并有一个不确定的说法。我们不必回到那么多年前,当时Snowflake和Databricks是新兴的云计算软件创业公司,他们是如此友好,他们的销售团队经常互相传递客户线索。现在这一切都改变了,因为Snowflake指控Databricks采用不正当的营销手段来赢得关注。这关系到未来几百亿美元的潜在收入。Databricks的首席执行官兼联合创始人AliGhodsi在一份声明中指出,Snowflake和Databricks如何在许多客户的数
7、据堆中共存。我们所看到的是,越来越多的人现在觉得他们可以真正使用他们在数据湖中的数据,与我们一起进行数据仓库工作负载。而这些可能是工作负载,否则会去Snowflake的。数据仓库供应商正在逐步从现有的模式转向数据仓库和数据湖模式的融合。同样地,那些在数据湖边开始他们的旅程的供应商现在也在向数据仓库领域扩展。我们可以看到两方面的融合都在发生。因此,正如Databricks使其数据湖看起来更像数据仓库一样,Snowflake 一直在使其数据仓库看起来更像数据湖。简而言之,数据湖仓是一个平台,旨在结合数据仓库和数据湖的优点。根据营销术语,数据湖室结合了数据仓库和数据湖的优点,为数据科学和分析用例提供
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 未来 五个 数据 发展趋势