云平台运维方案.docx
《云平台运维方案.docx》由会员分享,可在线阅读,更多相关《云平台运维方案.docx(45页珍藏版)》请在第一文库网上搜索。
1、云平台运维方案1 运维目标及对象42 运维工作内容43 工单及故障处理流程63.1. 工单处理臃63.2. 故障处理流程7第六章运维服务方案建议书81.1 运维支持人员81.1.1 驻场运维.81.1.2 二线运维.91.2 日常工作内容91.2.1 云平台运维.91.2.2 服务器存储运维.101.2.3 网络管理运维.111.2.4 桌面运维.111.2.5 .121.2.6 错误!未定义书签。1.2.7 错误!未定义书签。1.2.8 121.3 服务流程131.3.1 运维流程.131.3.1.1 事件管理131.3.1.2 变更管理171.3.1.3 配置管理241.3.2 运维服务电
2、话.291.3.3 管理流程接口及分工界面.291.3.4 双方工作职责.311.4 节假日运维保障321.5 服务承诺331.6 工作规范与考核331.7 提交文档361.8 项目验收385.应急处置预案401.9应急预案40431,应急方窠制定更新与演练.432、紧急故障应急预案制定及处理服务规范443、应急演练.451运维目标及对象云平台的运维工作以保障云平台的稳定性、各个云产品的可用性以及基础软件的可用性为目标,具体运维的产品列表如下:产品名称产品描述ECS弹性计算服务RDS关系型数据库服务OSS开放存储服务S1B负载均衡服务OTS开放结构化数据服务ODPS开放数据处理服务ADS分析数
3、据库服务BASE数据管理服务ERMS云产品管理控制台2运维工作内容云平台运维工作内容包括:D资源管理对云平台的物理资源及产品库存资源进行管理。随时掌握产品资源情况,为客户的各种资源需求提供参考和建议,如库存水位超限需及时发出预警。2)产品技术支持用户在云产品的开通、使用过程中相关问题的咨询、解答、解决。3)告警处理及监控优化及时发现和处理云平台的告警,对现有的监控项不断进行改进和优化。4)日常巡检对云平台进行巡检,掌握各类运行情况,提前发现隐患并跟进解决,避免引发故障。5)故障处理故障的发现、响应、到场排查、初步判定及解决。不能解决的情况,及时联系二线支持,在二线支持的指导下现场解决。故障后,
4、对问题进行review、总结和改进。6)问题收集及跟进云平台的全方位问题收集、反馈、并跟进解决,推进专有云产品的不断完善。3工单及故障处理流程3.1.工单处理流程流程关键节点说明工作内容简述主要关键节点说明:问题提交:用户有任何问题,通过工单平台以工单的形式提单到GOC。工单流转:用户在阿里官网通过工单系统提交工单会直接到GoC-监控中心团队。(注:GOC只处理阿里云平台和产品相关故障,不涉及应用层问题。)视问题需要,GoC将协调现场支持,现场支持人员可在4小时内到达现场。交付物工单处理记录3.2.故障处理流程眦&同步放潼信息故障处理流程如下:龙根依羽U09葡-Hs故漳瞬天关键点说明如下:流程
5、关键节点说明工作内容故障主要关键节点说明:故障来源有2类:监控发现和用户反馈故障需要确认。计划中的变更引起的异常,用户使用造成的问题等不判定为故障。报障信息:客户报障需要描述准确故障现象、业务影响、页面UR1、IP地址、问题发生时间、报错前操作截图和报错截图、Ping和tracert截图等,可引导客户提交工单来提供故障信息。(详情见故障信息提交模板)确认故障后5分钟内发送故障通告。如果故障处理超过2小时,故障支持每2小时更新进展。故障中如需现场支持,GOC将协调人员在4小时内到达现场。故障后将对问题进行跟踪,包括:问题原因、问题跟进责任人、改进措施、预计解决时间点、验收标准等。交付物故障通告、
6、故障报告4运维服务方案建议书1.1 运维支持人员运维支持包括驻场运维及二线运维,驻场运维可以通过电话/工单联系二线运维。1.1.1 驻场运维驻场运维人员的工作内容包括各类日常巡检、问题处理、监控优化等以保障平台稳定性及高效运行。同时,驻场运维工程师将视具体需求承担一定的场内运维工程师的技术咨询和培训。的驻场运维人员:付金龙,电话:185002100511.1.2二线运维对于云平台的二线运维,提供大客户技术经理、技术支持。的客户技术经理:电话。技术支持提供7*24服务,负责日常工单转派和紧急事务的协调。技术支持的后端支持团队包括平台运维、大数据运维、网络运维、数据库运维、技术支持。问题受理渠道工
7、单入口问题受理的官方正式渠道,任何I问题均需由场内运维服务提供人员提交工单。热线电话热线电话为故障的紧急申报渠道,以及问题处理过程中的辅助沟通渠道。紧急故障驻场运维服务提供人员电话申报后需立即补提工单。紧急问题处理过程,二线运维与驻场运维电话沟通。1.2 日常工作内容1.1.3 云平台运维驻场运维人员需要定时对云平台进行巡检工作,以保证专有云运行的安全性和稳定性,及时发现故障和问题,在第一时间进行处理,减少故障带来的损失、维修费用、人员成本和消耗,并提高云平台运行的经济性和完好率,掌握资源的使用情况,包括水位和性能,保证足量资源投入运行,保证投资效果云平台巡检工作内容请参见-附件21110项目
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平台 方案