《基础设施维护方案.docx》由会员分享,可在线阅读,更多相关《基础设施维护方案.docx(28页珍藏版)》请在第一文库网上搜索。
1、基础设施维护方案一、概述运行维护,由维护及定检两部份内容组成。维护定检不仅是在问题浮现时能迅速地定位、解决问题;而更重要的是在故障产生前,能够通过例行的巡检工作及时发现故障隐患、消除故障隐患,使设备长期稳定地运行。对设备良好、有效的维护,不仅能够减少设备的故障率,并且可以延长设备的使用寿命。维护定检的基本原则就是在例行维护定检工作中及时发现、解决问题,防患于未然。如果维护人员能在故障发生之前,在例行巡检之中,及时检测到故障的先兆,将故障解决在萌芽期,这样非但可以避免故障发生后,由于抢修的慌乱、业务中断所造成的经济损失;而且还可以避免故障严重化对整个设备所造成的损伤,从而降低板件更换等维护费用,
2、延长设备的使用寿命。而这一切,非但要求维护人员有深厚的功底,丰富的维护经验,还要有洞察秋毫的高度敏感性。二、总则为基础设施的连续性和信息安全性,制定有效的运行维护策略来保证服务交付的质量,兼顾运行维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应;事后改进,持续评估”的持续改进原则。1 .1可用性采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合S1A的可用性要求。包括:a)在服务实施时,建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以满足需方对可用性的要求;b)进行合理的人员岗位设置和职责定义
3、,保证专人专岗并设置人员备份;c)配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求;d)选择合用的运行维护技术,以保证服务的可用性;e)根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以保证服务水平。运行维护工具等级;f)根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。2 .2安全性采取各种安全手段或者措施,有效控制数据中心运行维护服务的各个环节,保护数据中心运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:a)建立适当的信息安全管理机制,以规范数据中心运行维护服
4、务人员的信息安全行为;b)对运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议等;c)对运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员了解并遵守数据中心安全、保密相关规定;d)充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安全建议,并对服务对象进行适当的监控和保护;e)对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;f)建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。2.3及时性采取适当的手段确保提供满足S1A时间指标要求的运行维护服务
5、。包括:a)对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;b)建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;c)建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保障;d)特殊时间段(如法定节假日或者重大事件等),应提升响应级别,提供必要的现场支持;e)建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。2.4规范性建立适当的服务管理流程、服务活动指导文件或者实施规则,以保证服务过程的规范运作。包括:a)建立有效的服务管理流程文件,以保证服务过程实施规范性;b)建立或者遵循需
6、方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;c)对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;d)对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风险评估及分析,采取相应的风险规避措施和回退手段;e)在服务过程中进行的任何活动,应建立服务档案,可形成服务报告,保留完整的服务记录。三、服务对象与交付说明3.1 服务对象及内容(1)定期对硬件设备进行巡检、保养,以保障设备运行正常(具体设备范围因合同而异,基本包括电力系统、空调系统、安防系统、网络系统、监控系统以及综合布线系统等);(2)定期升级配套软件的版本;(3)协助采
7、购人制订安全策略,定期检查、排除风险,保隙设备及网络环境安全;(4)针对重要设备,实时监控运行状况,及时发现故障、排除故障;(5)针对周期性巡检发现的安全隐患进行防范和处理;(6)提供配件维修、更换服务(7)系统重部署及调试:新机上架协助及系统移位协助。(8)协助采购人,规范硬件管理维护标准化工作。3.2 交付内容服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:a)调研评估服务:根据需方、服务相关方或者系统运行的需求,对服务对象的运行状况、运行环境进行现状调研、系统分析和评估并提出相应的建议和服务方案;b)例行操作服务:按照约定条件触发或者预先规定的常态服务,分为监控、预防性
8、检查和常规作业;1) 监控:指采用各类工具和技术,对服务对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警;2) 预防性检查:保证服务对象的持续正常运行,根据服务对象的监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以便消除或者改进;3) 常规作业:对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定期重启等活动,以保证服务对象的稳定运行。c)响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;1) 事件驱动响应:由于不可预测原因导致服务对象整体或者部份性能下降、功能丧失,触发将服务对象恢复到正常状态的服务活动。事件
9、驱动响应的处理过程首先争取在最短的时间内恢复服务或者启用备份资源,维持服务的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;2) 服务请求响应:由于需方提出各类服务请求,引起的需要针对服务对象、服务等级做出调整或者修改的响应型服务。服务请求响应需要根据总体服务策略并参考已有的S1A/SOW做出判断,对服务的实施进行影响评估,制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及
10、服务等级变更、服务范围变更、技术资源变更、服务提供方式变更等;3) 应急响应:指在浮现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发出行政指令或者需方提出要求时,应当启动应急处理程序。d)优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;1) 适应性改进:为保持服务对象在己变化或者正在变化的环境中可持续运行而实施的改造;2) 增强性改进:根据运行需求或者由于服务对象的缺陷,采取相应改进措施增强数据中心的安全性、可用性和可靠性;3) 预防性改进:检测和纠正服务对象运行过程中潜在的问题或者缺陷,以降低系统风险,满足未来可靠运行的需求。四、运行维护交付内容4.1 服务
11、对象服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发机电系统)、安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)、网络系统及设备、PC服务器、小型机等服务器以及综合布线系统。4.2 调研评估基础设施调研评估服务内容包含但不限于:a)空调系统(精密空调系统、新风系统):机房环境指标分析及改进建议、机房热点分析及布置改进建议、机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;b)电力系统(供配电系统、UPS系统、发机电系统):机柜供电分析及改进建议、机房回路调整分析调整建议、机房扩容建议等;发机电负荷分析及调整建议等
12、;UPS运行分析及扩容建议,超过设计使用寿命的电池更换建议、整流直流电容、逆变交流电容等;c)安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):防雷接地系统分析及改进建议、消防系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分析和改进建议等;d)综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或者扩容建议;级别提升建议等。e)机房电源使用效率:通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、
13、使用节能型设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。f)网络及网络设备调研评估:(整体或者局部)网络实际负荷与承载能力分析;(整体或者局部)网络预期负荷与承载能力分析与建议;(整体或者局部)网络架构分析与建议;(整体或者局部)网络路由策略分析与建议;(整体或者局部)网络安全策略分析与建议;(整体或者局部)网络配置调优分析与建议等。g)服务器调研评估:服务器负载情况分析;服务器安全策略分析;服务器的高可用性分析;服务器性能分析及调整建议。4.3例行操作基础设施的例行操作服务包括:监控、预防性检查、常规作业。4.3.1 监控对基础设施的监控内容参
14、见表1,包括但不限于:表1基础设施监控内容表服务对象监控内容空调系统(精密空调系统、新风系统)环境温度、环境湿度、出风温度、回风温度,告警情况等电力系统(供配电系统、UPS系统、发机电系统)供配电系统:电流、电压、功率因数、有功功率、无功功率、谐波等发机电:启停情况、电流、电压、负载率、控制系统供电情况等UPS:输入电流电压、输出电流电压、频率、负载率、温度、报警情况、电池充电/放电电压等电源使用效率:PUE值(通过监控软件监测或者计算得出)安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)防雷接地系统:浪涌保护器、避雷器状态等消防系统:消防控制系统状态、气体灭火钢瓶压力、灭火器有效期
15、检查视频监控系统:告警情况、监控录相等门禁系统:门禁状态、告警情况网络及网络设备网络设备的健康状况、整体运行状态、各项硬件资源开消状况链路健康状况如端到端时延变化、链路端口工作稳定性、链路负载百分比、部署路由策略情况下端到端选路变化、路由条目变化管理权限用户的行为审计设备软件配置变动审计设备日志审计安全事件审计服务器服务器整体运行状态服务器电源工作状态服务器CPU工作状态服务器内存工作状态服务器硬盘工作状态服务器网络端口工作状态4.3.2预防性检查在监控服务的基础上对基础设施进行预防性检查。包括:性能检查和脆弱性检查。基础设施预防性检查内容参见表2,包括但不限于:表2基础设施预防性检查内容表服务对象性能检查内容脆弱性检查内容空调系统精密空调高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情况,灰尘情况等机房热点情况、室内机漏水检查、室外风机运转情况、加湿罐阳极棒检查、过滤网检查等新风系统风机运行情况、风速,预处理系统工作状态,上下水情况等过滤网检查、风压差检查电力系统配电系统接地电阻、零序电流、器件发热情况等导线、器件发热情况,防浪涌器件情况等