基于大数据备份迁移速率和性能优化的解决方案.docx
《基于大数据备份迁移速率和性能优化的解决方案.docx》由会员分享,可在线阅读,更多相关《基于大数据备份迁移速率和性能优化的解决方案.docx(6页珍藏版)》请在第一文库网上搜索。
1、基于大数据备份迁移速率和性能优化的解决方案1:针对行业及背景1.1 :行业涉及到数据的诸多行业之中。1.2 :背景大数据又称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。从某种程度上说,大数据是数据分析的前沿技术。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。大数据区分于传统数据最显著的特征,面向海量的数据,处理数据的效率和捕获速度至关重要。为了满足市场的需求我参与到DataOne数据融合系统的核心研发中。2:所属项目简介2.1 :项目名称DataOne数据融合系统2.
2、2 :项目描述主要实现数据的迁移。包括数据库到数据库,以及服务器的文件到服务器的迁移,实现数据的备份或者数据库数据迁移到国产化数据库等等。为了能够实现一对多(一个数据源多个目的端)高效快速的完成数据迁移。系统的性能是整个系统的核心问题。3:性能优化方案设计3.1 :系统整体架构SINKS3.2 :主流技术框架SpringBootSpringCIoudRedis消息中间件kafkaZk等等3.3 :设计方案介绍此方案设计采用SPrmgBOOt进行功能开发。系统整体分为数据中台后台两个模块。数据中台:提供用户的操作界面,动态展现数据流转过程,任务的进度,清洗规则以及任务错误队列数据源配置任务创建等
3、信息,不参与数据的抽取和写入。数据后台:提供数据的抓去和目的端的写入工作。因为数据源需要迁移的数据量庞大,用户又要快速的完成数据迁移,以免对生产环境或者后续数据需求造成影响,所以系统的性能设计成为了核心。最终经过研究采用消息对列kafka+线程池的方式实现性能提升。3.3.1 :设计的方案概述因为数据的海量数据要么表个数居多,要么表中的数据量庞大。如果现在创建一个数据库Orac1e到国产化数据DM的全量数据迁移任务,那么在数据后台就会将源端的数据中的表放入到一个队列中,在数据抓取层开启数据抓取任务的线程并将任务交于线程池进行管理,抓取层的任务开启是从队列中获取源端数据库表信息,读取这张表的数据
4、,分批次的获取并且以表的信息创建Topic并且发送数据到kafka上,同时数据写入层作为消费者动态的监听指定的Topic上是否有发送到的数据并开启写入数据任务及时进行消费,批量的进行数据在目的端的写入工作。这样实现了真正意义上的读写分离,逻辑分离任务分离。3.3.2 :技术选型的对比一:消息中间件对比要实现读写分离就必须引入消息中间件,市面上的消息中间件居多,分析每个的优劣。MQ的优点1、异步:提升系统的响应速度,吞吐量。2、解耦:服务之间进行解耦,才可以减少服务之间的影响,提高系统整体的稳定性以及可扩展性。另外解耦后可以实现数据分发。生产者发送一个消息后,可以由一个或者多个消费者进行消费,并
5、且消费者的增加或者减少对生产者没有影响O3、削峰:以稳定的系统资源应对突发的流量冲击。MQ的缺点1、系统可用性降低:系统引入的外部依赖增多,系统的稳定性就会变差。一旦MQ宕机,就会对业务产生影响。(需要考虑如何保证MQ的高可用)2、系统的复杂度提高:引入MQ后系统的复杂度会大大提高。以前服务之间可以进行同步的服务调用,引入MQ后,会变成异步调用,数据链路会变得更复杂。并且还会带来一系列的问题。(如何保证消息不会丢失?不会被重复调用?怎么保证消息的顺序性?)3、消息一致性问题:A系统处理完业务,通过MQ发送消息给B、C系统进行后续的业务处理。如果B系统成功,C系统失败,这就需要考虑消息的一致性。
6、Kafka号称大数据的杀手铜,谈到大数据领域内的消息传输,则绕不开Kafka,这款为大数据而生的消息中间件,以其百万级TPS的吞吐量名声大噪,迅速成为大数据领域的宠儿,在数据采集、传输、存储的过程中发挥着举足轻重的作用。ApacheKafka它最初由1inked1n公司基于独特的设计实现为一个分布式的提交日志系统(adistributedcommit1og),之后成为APaChe项目的部分。目前已经被1inked1n,Uber,Twitter,Netf1ix等大公司所采纳。1优点性能卓越,单机写入TPS约在百万条/秒,最大的优点,就是吞吐量高。时效性:ms级可用性:非常高,kafka是分布式的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 数据 备份 迁移 速率 性能 优化 解决方案