备份系统运行数据采集及分析方法.docx
《备份系统运行数据采集及分析方法.docx》由会员分享,可在线阅读,更多相关《备份系统运行数据采集及分析方法.docx(16页珍藏版)》请在第一文库网上搜索。
1、备份系统运行数据采集及分析方法Aa【导读】本文从个人运维实践经验出发,研究设计备份系统运行数据采集及分析方法,从而能更加洞察系统的运行规律,希望对同行有一定的借鉴和参考价值。前言信息系统的运行虽然遵循一定的运行规律,但也呈现出动态的、易干扰、难以预测的特征。对于IT系统运维人员来说,我们最关注的是系统的稳定运行,有时会过于担忧系统的运行风险,有时也对某些运行中的风险麻痹大意,甚至在面对潜在的、未知的故障时,还会十分恐慌。恐惧源于未知,IT运维人员需要克服这种恐惧,让运维从容不迫。本文将从个人运维实践经验出发,研究设计备份系统运行数据采集及分析方法,从而能更加洞察系统的运行规律,希望对同行有一定
2、的借鉴和参考价值。1.需求数据备份是为应对潜在的数据丢失风险,而将业务系统中的数据加以复制并转储到备份存储的工作。为统一调度不同的数据备份作业,集成管理数据备份服务器以及不同类型的备份存储介质,企业需要规划建设与业务系统架构相适应的数据备份系统。作为数据安全的一道重要防线,稳定运行的数据备份系统是至关重要的。备份系统运维侧重于关注备份作业是否出现报错,备份存储是否存在异常,出现异常或故障时如何去排查、分析、干预等方面。基于备份系统运行数据的收集及分析,来构建备份系统较全面的数字模型,主要用于解决以下三个痛点: 缺乏有效的故障预警:粗粒度、滞后性的运维方式增加了备份系统的故障率,进而影响了备份作
3、业的成功率。 故障溯源困难:故障会导致运行错误,故障分析定位的过程则是从运行错误回溯到故障,找出错误源头,这也是传统运维方式的痛点之一。 系统管控能力不足:备份系统不同于一般的业务系统,往往会忽略了运维的过程管理,包括配置管理、变更管理、容量管理等。如果系统管控能力不足,会大大增加运维风险,严重影响系统的稳定运行。2 .设计策略部分大数据、智能化运维项目更注重于形,即先搭平台,数据收集起来,再慢慢看能做什么样的数据分析和应用。这样的设计策略没有认识到数据质量的重要性,也轻视了系统运行规律和运维经验的指导作用,系统的有效性大大降低。如果数据质量不高或缺失了某些关键指标数据,数据分析的结果必然会有
4、偏差。因此,总体设计策略应先关注领域分析,即有必要深入分析备份系统的整体架构,了解系统各组件之间的关系、数据流路径;然后是数据的场景化设计,针对具体的运维场景确定数据分析及应用场景,再追溯确认需要采集的指标数据;最后详细设计数据收集和数据分析方法。整体设计流程如图1所示:3 图1.设计策略流程图4 .领域分析4.1 备份系统整体架构备份系统主要包括备份管理系统、备份客户端、备份网络以及备份存储介质这几种组件,如图2所示:图2.备份系统整体架构图-备份管理系统包括备份管理软件和备份管理服务器,承担备份作业调度管理、备份存储介质管理等责任,是典型的C/S架构,读取备份客户端数据,并将数据写入备份介
5、质中。备份客户端执行备份任务的业务主机,是用户感知层,一般需安装备份软件客户端代理程序,并与备份服务端通信。备份网络承担备份数据流的传输任务,一般分为基于TCP/IP的备份1AN和基于FC的备份SANo备份存储介质承担备份数据存储的备份设备或介质,常见的包括磁带库,虚拟带库,NAS存储等。3. 2备份数据流备份系统的数据流主要包括备份作业数据流和数据恢复数据流,如图3和图4所示。需要强调的是,数据流传输并不是一个直接调用返回的动作,而是一个持续的数据传输过程,在数据流传输路径的任意一个环节出现堵塞或者故障,备份或恢复作业即会受到影响;另外,由于源端或目的端重复删除技术的应用,备份与恢复的数据流
6、并不对称,需要分别分析。4.场景设计4.1故障管理场景故障管理是运维场景中最重要的一环,一般可分为事前、事中、事后三个阶段。事前阶段的重点是评估分析,做好故障预防;事中阶段则包括故障告警、故障处理和恢复;事后阶段需要做好分析改进。下文将对备份系统常见的故障场景做具体分析。4.1.1作业时长增加数据备份和恢复作业的时长增加是一种隐性故障,一般影响较小。但对于关键业务系统来说,超出备份时间窗口,带来的影响有时也是无法容忍的;而数据恢复作业时长有时也决定了故障恢复时间长短。数据备份恢复时长一般随数据量的增长而缓慢增长,但异常情况下,备份恢复速度也会降低。在事前阶段,我们可以判断数据量是否有突增,可以
7、提前调整备份时间;事中阶段可关注数据吞吐量,如达不到速度预期,甚至严重超出备份时间窗口,可能需要及时中止备份恢复作业;事后阶段主要是排查定位速度下降的原因,主要排查方向是备份网络带宽被占用、读取数据源的速度下降以及写入备份存储的速度下降这三类。4.1.2 硬件故障硬件故障的影响依赖于硬件冗余情况,备份服务器、备份网络、磁带机、磁带等等硬件都需要有冗余,这种问题对备份系统的影响一般是一次性的。除了硬件设备自身故障以外,还可能存在兼容性问题导致的硬件故障问题,这类问题可能会间歇性的影响到备份作业的成功率,定位难度也比较高。在事前阶段,我们需要关注硬件自身的状态,可提前预防硬件故障带来的影响;事中阶
8、段,一般来说硬件故障会导致作业报错,即使硬件自身状态正常,但通过运行日志能判断到硬件故障的可能性较大,需要及时将故障硬件排除出去,先保障备份作业的成功率;事后阶段,综合运行日志情况和故障处理情况,可进一步去定位是硬件自身故障还是兼容性问题,为故障最终处理提供依据。4.1.3 软件异常一般软件异常指的是软件提供的服务不达预期,可能是代码缺陷或服务异常终止,可以分为前端和后端异常,前端异常会导致备份恢复作业报错,后端异常主要是影响server后端作业。前端异常涉及到备份软件server和c1ient,c1ient影响的是使用该代理的备份作业,server端的影响较大。在事前阶段,我们需要确认备份软
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 备份 系统 运行 数据 采集 分析 方法