《机房事故的应急服务流程(应急处理方案).docx》由会员分享,可在线阅读,更多相关《机房事故的应急服务流程(应急处理方案).docx(4页珍藏版)》请在第一文库网上搜索。
1、机房事故的应急服务流程(应急处理方案)1应急处理原则与思路机房事故处理基本遵循先恢复后维修,先重点后一般的原则,做到:制订齐备的预案处理流程与操作指引,保证运维工程师熟悉故障紧急处理流程,熟练掌握操作步骤和方法。凡系统发生故障,按照预案立即组织抢修,不得拖延1秒。日常维护人员如实上报故障情况,故障报告做到时间准确、原因清楚、处理结果完整。重大故障和严重故障及时上报上级业务主管领导。对已处理的重大故障和严重故障,事后必须故障分析,查清故障原因,确定故障性质和责任,采取防范措施,避免同类故障再次发生。2.应急保障方案机房的安全无疑是整个计算机信息系统安全的前提,如果机房存在这样那样的不安全因素,从
2、而导致发生机房事故,则整个信息系统的安全也就不可能实现。随着网络信息化建设的不断深入,加强机房各类设备、系统以及信息与网络安全等方面应对突发事件的处理能力将是我们H前面临的一项重要任务。为确保系统及机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,将正在发生或已发生事故的损害程度减轻到最低。应急演练内容是一季度一次。供油保障供水保障供电保障厂商保障消防保障与附近加宙确定,平时的油耗补给计划,和大范围停电后用油机后,紧急供油计划与园林局或消历队联系,制定相应的工业园停水,后,蓄
3、水车供水计划,开与供水公司建立信.皂互通机制。.与供电局Zi通,诵屎两路市电的正常输出,以及日常停电计划及时通知等I呆障it划与各设备厂商沟通确定,日常维护保养计划、故障D何叵:以及应急情况下网响应和技术支持计划与有消防设施检测资质叼单1,确定消除维护保养计划,并提供检测告。本应急保障方案为初步设计方案,实施前我公司会根据建设移交详细资料、当地供电、供水等具体情况进行运维深化设计。3 .故障应急响应724小时响应监控中心的故障和需求派单处理,开展故障处理,完成故障维修工作,并及时有效的解决好各类维护需求。主要包括设备运行中发生的故障,制冷设备运行中产生的优化需求,设备例行巡检及专业专项巡检时发
4、现的故障、隐患以及各类维护需求。事件通报内容:事件发生时间、事件现象、事件影响范围(影响地区、影响机房)、处理成员名单与联系方式。事件通报后:每15分钟反馈事件进展、事件恢复进度。事件报告:事件解决三个工作日内提供故障报告,故障报告内容包括但不限于故障产生的根本原因、解决过程概述、纠正预防措施等。4 .应急保障及演练制定完善的应急保障方案并定期组织应急演练,缩短应急处置时长,确保机房业务安全稳定运行。应急演练前应提交详细的应急演练方案,应急演练结束后三天内应提交应急演练总结报告。须配备必要的应急保障工具、应急车辆及备品备件,以保障按照故障处理时限完成故障处理。制定应急抢修联系单,内容包括常用联
5、系人和备选联系人,便于故障抢修或技术支撑时紧急联系;须对数据中心现有的运行设备业务等级或临时保障任务进行定义,并收集、制定应急保障抢修经验交流库;在进行故障抢修或保障任务时应及时了解掌握现场处理情况及资源安排情况,并如实向部门负责人进行反馈;应定期组织开展对现场设备安全隐患深度排查及应急保障演练工作,并提供合理性的建议及实施方案,相关的实施记录在周报或月报内体现。双路外电中断后宕机概率高,因此提出特保要求:1、单路市电中断后启动油机,并保持油机正常运行和持续供油,直至市电恢复;2、单路市电中断时,不得出现因温度问题导致的宕机;3、双路市电中断时,若双路中断间隔大于6分钟,不得出现因温度问题导致
6、的宕机;双路市电中断间隔在6分钟之内时,代维对宕机免责。维护单位应针对特保需求制定单独的特别保障维护方案,另行申报维护费用,实现特保相关要求。5 .紧急故障预防措施1、建立健全机房维保技术人员管理制度5.1 在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除故障隐患。5.2 周末、节假日及重大会议期间技术人员轮流值班,负责处理有关异常情况。2、应提高对机房可靠性、可用性、安全性等方面的认识,既要重视信息系统安全,又要重视机房的运行维护管理,重视对计算机硬件、软件及网络设备的维护。要树立大局意识和忧患意识,对机房设施安全的重要性给
7、予足够的重视。3、应重点加强管理制度的执行。管理制度包括预防维护流程和紧急情况处理预案两个方面。要制定相应的管理制度,包括机房管理岗位制度、机房操作规程等,以明确岗位职责。为应对机房中可能会发生的紧急情况,如火灾、断电、数据丢失、设备失灵等,应按各种紧急情况分列处置措施,还要对预案进行演练。4、应不断提高机房管理人员的技术水平。机房设施非常复杂,涉及很多专业和系统,维护人员只有通过不断的总结以往出现的各种问题进行后续学习和培训,提高技术水平,才能避免更多的相同的问题及异常情况甚至事故的发生。5、应加强供配电、照明等电源子系统的监测。同时应重点对温度、湿度、灰尘、有害气体等进行评估和监测。还要加强静电防护、干扰源分析及保护、雷击防护、电磁干扰、振动控制,防火、防水等工作。6、应加强对进入机房人员的管理。工作人员行为、素质等因素均可能对机房安全造成影响,因此,除管理制度约束外,门禁和视频监视等物理安全策略均可有效提高机房安全水平。7、应定期对机房设施进行安全评估。8、机房内严格采取防雷、防火、防尘、防静电等措施以及机房24小时监控等措施。9、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。10、对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保整个网络的正常运行。