《超算中心运维管理方案.docx》由会员分享,可在线阅读,更多相关《超算中心运维管理方案.docx(9页珍藏版)》请在第一文库网上搜索。
1、超算中心运维管理方案学生姓名王排学 院软件学院专业班级软件工程13C学生学号13250129手机13726784637一, 超算中心运维需求及分析 超算中心需求:依据服务指标运行情况,建立运维服务水平评价体系:服务运行指标体系覆盖系统连续性服务能力、系统设备可用性、人员服务能力、项目管理等方面,通过服务指标监控和运行分析,实现对运行服务的集中、分级管理和监控,并能够及时调整运行维护策略,促进运维质量和效率的提高。从整体运维、优化的角度,包括但不限于实现以下内容,并根据实际业务运行需求不断完善优化:1) 项目管理:为保证项目顺利实施所需的项目整体规划、进度控制、相关方沟通,组织并协调驻场人员、分
2、包商、供应商、设备厂商、承建商及维保商等等共同配合推进运维项目的顺利进行。2) 设备管理:根据运维目标针对各软硬件系统、设施制定使用、维护、操作规范,形成有效的管理机制,分析各系统风险点和项目实施期间发现的问题并制定相应的解决和优化方案,并跟进日常各种问题、故障的处理实施情况,提高机房的可用性。3) 机房容量管理:根据机房实际情况与业务发展需要,综合供配电、制冷、消防、承重、设备管理等等因素,制定机房的空间及设备上线管理规范,提高机房基础环境的利用率;4) 生产安全管理:根据国家有关的法律法规及行业规范,从生产运行、人身安全、资产、信息等角度制定安全管理制度,并切实执行,实现运维期内安全零事故
3、;5) 服务质量管理:根据实际运维工作需要,制定服务质量标准及质量控制规程,通过培训、演练等多种方式实现对项目实施质量的控制,保证各项要求、规范的实施效果。6) 资产管理:针对本项目范围内所涉及的设施、设备、耗材、工具、软件等等制定严格的管理规范,并落实相关管理岗位责任,保证项目各项资产的完整性。7) 人员管理:根据岗位需要和项目要求,配备具体相关技能、资格证书及资历的服务人员,并制定完善的人员管理与考核制度,保证服务人员的精神面貌、服务水平。8) 配置及数据管理:针对本项目实施所涉及和产生的包括系统资料、规章制度、系统运行要求、运行数据、实施记录等所有与项目有关的信息数据应该进行及时的整理、
4、保存,并根据其关联性形成目录便于查询。超算中心需求分析:超算中心的运维管理指的是与数据中心信息服务相关的管理工作的总称。超算中心中心运维对象共可分成5类:1,机房环境基础设施部分。这里主要指为保障数据中心所管理设备正常运行所必需的网络通信、电力资源、环境资源等。这部分设备对于用户来说几乎是透明的,因为大多数用户基本并不会关注到数据中心的风火水电。但是,这类设备如发生意外,对依托于该基础设施的应用来说,却是致命的。2,在提供IT服务过程中所应用的各种设备,包括存储、服务器、网络设备、安全设备等硬件资源。这类设备在向用户提供IT服务过程中提供了计算、存储与通信等功能,是IT服务最直接的物理载体。3
5、,系统与数据,包括操作系统、数据库、中间件、应用程序等软件资源;还有业务数据、配置文件、日志等各类数据。这类管理对象虽然不像前两类管理对象那样看得见,摸得着,但却是IT服务的逻辑载体。4,管理工具,包括了基础设施监控软件、监控软件。这类管理对象是帮助管理主体更高效地管理数据中心内各种管理对象,并在管理活动中承担起部分管理功能的软硬件设施。通过这些工具,可以直观感受并考证到数据中心如何管理好与其直接相关的资源,从而间接地提升的可用性与可靠性。5,人 员,包括了数据中心的技术人员、运维人员、管理人员以及提供服务的厂商人员。人员一方面作为管理的主体负责管理数据中心运维对象,另一方面也作为管理的对 象
6、,支持IT的运行。这类对象与其他运维对象不同,具有很强的主观能动性,其管理的好坏将直接影响到整个运维管理体系,而不仅仅是运维对象本身。二, 超算中心运维存在的问题/难点 1、超算中心项目庞大,从设备到人员,相对复杂,统一协调是大问题,导致问题不能及时解决。各部门之间无法形成统一协调的IT系统管理,问题得不到有效的跟踪,也就谈不上及时解决。2、原因不清,导致问题无法根治。如果说统一协调管理问题不得不解决,那么当超算中心的某个流程出现问题时,往往因为找不到故障原因,而无法从根本解决问题的情况,却成为中心很难解决的问题。3、对人的依赖,导致人员变更后的运维问题。如果一个熟练运维人员的岗位发生变更,当
7、问题在出现时,就很难得到迅速处理。即使会有新人继承前人的工作,但他却无法继承前人的运维经验,这成为企业运维成本增加,重复投资的重要原因。4、技术问题,超算技术,机房的维护,需要非常专业的技术,这样对人员的依赖,特别对高技术人才需要是必须的。三,超算中心运维解决方案 人员配置:人员配置原则是双岗制,重要岗位配置双人轮换,以保证人员的更替不会对现有运维管理造成影响,包括不少于以下数量的人员:1.驻场项目经理1名(58驻场,724小时待命);2.机房驻场运维技术主管不少于2名(58驻场,724小时待命); 3.驻场值班团队人员不少于20名(全年724小时驻场值班),持包括电工证、高压证、制冷证、建(
8、构)筑物消防员资格等资格。运维原则:通过强大的综合分析能力,为超算提供运维参考和技术支持应随时了解超算中心的运行情况和安全状况、安全态势,在稳定和安全的基础上,对安全事件和安全态势进行综合分析,得出宏观的规律和各类不同事件相互联系的规律,为超算中心运维提供强有力的数据参考和决策支持。提高安全事件的响应和处理能力结合监控中发现的问题,以及在安全检查中对自身脆弱性的了解,为应急响应的处理提供了依据,同时依据超算中心特点,建立超算中心安全知识库。鉴于目前超算中心的人员并不具备独立处理安全事件的技术实力,中心需要专业安全服务厂商提供安全事件的预警、响应和必要的技术支持,提高超算中心运维部门的安全事件响
9、应与 处理能力。预先防范,提前做好安全性检查,全面提升主动检测能力Web应用的安全性成为越来越需要关注的问题,有近40%的入侵是由于Web应用的问题造成的。在AppliedResearch发表的一份调查报告中, 企业反馈超过一半的最频繁的攻击是针对Web应用的。这些攻击中有一半都出现在著名“OWASP十大威胁”名单中。面对这些持续而频繁的攻击,超算中心需 要进行定期的安全检查,及时主动发现信息系统中存在的安全漏洞及潜在威胁。建立超算中心安全事件监测机制,及时发现超算中心安全问题 运维阶段中,我们如何及时发现异常行为?这是正常用户应该出现的行为吗?该用户是否被控制或穿了马甲?比如某台服务器出现了
10、大量的外连上传行为、进出访问 IP中出现大量陌生的境外IP或CNCERT通报的恶意IP等。所以,超算中心需要建立一套有效的安全事件监控和预警措施,能够在超算系统即将遭到攻击或 已经遭到攻击时,快速、准确地发现攻击行为,并迅速启动处置和应急机制。同时可以对信息系统的安全事件进行综合分析,了解当前整体超算系统的安全态势,为整体 网络与信息安全规划提供有效的数据支持。管理原则:1、定义各运维对象的运维内容超算中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。要对每一个管理对象的日常维护工作内容有一个明
11、确的定义,定义操作内容、维护频度、对应的责任人,要做到有章可循,责任人可追踪。实现对整个超算中心的全生命周期的追踪管理。2、建立信息化的运维管理超算中心超算中心的运维管理应从超算中心的日常监控入手,事件管理、变更管理、应急预案管理和日常维护管理等方面全方位地进行超算中心的日常监控。实现提前发现问题、消除隐患,首先要有完整的、全方位实时有效的监控超算中心,并着重监控数据的记录和技术分析。超算中心的业务可以概括为:通过运行超算中心来向客户提供服务。没有信息中心的支撑来运行超算中心就如超市里仍然采用手工结账一样不能让顾客满意。信息化的超算中心运维管理平台超算中心包括如下方面:机房环境基础设施监控管理
12、超算中心IT超算中心监控管理超算中心IT服务管理超算中心3、自动化管理IT服务根据负载变化可以自动调整所需资源,以求在及时响应和节约成本上取得平衡:同时,计算能力规模越来越大,人工管理资源也越来越不实际。这些新特性对IT管理自动化能力提出了更高要求,企业往往希望在不失灵活性的前提下可以得到更高程度的自动化。为此,超算中心需要部署自动化管理平台,集中管理虚拟化和云计算平台、提供自定义规则定制功能的自动化解决方案,用户通过使用事件触发、数据监控触发等方式来自动化管理,节约人力同时提高响应速度。4、人员管理超算中心是为公司用户提供IT服务的,为了保留和吸引客户,在运维过程中客户关系管理非常重要。(1
13、) 服务评审:与客户进行定期或不定期的针对服务提供情况的沟通。每次的沟通均应形成沟通记录,以备超算中心对服务进行评价和改进。(2) 客户满意度调查:客户满意度调查主要包括客户满意度调查的设计、执行和客户满意度调查结果的分析、改进4个阶段。超算中心可根据客户的特点制定不同的客户满意度调查方案。(3)客户抱怨管理:客户抱怨管理规定超算中心接收客户提出抱怨的途径,以及抱怨的相应方式,并留下与事件管理等流程的接口。应针对客户抱怨完成分析报告,总结客户抱怨的原因,制定相关的改进措施。为及时应对客户的抱怨,应该规定客户抱怨的升级机制,对于严重的客户抱怨,按升级的客户投诉流程进行相应处理。七、安全性管理由于
14、提供服务的超算中心和数据被转移到用户可掌控的范围之外,超算中心的数据安全、隐私保护已成为用户对超算中心最为担忧的方面。超算中心引发的安全问题除了包括传统网络与信息安全问题(如超算中心防护、数据加密、用户访问控制、Dos攻击等问题)外,还包括由集中服务模式所引发的安全问题以及云计算技术引入的安全问题,例如防虚机隔离、多租户数据隔离、残余数据擦除以及多SaaS应用统一身份认证等问题。要解决超算中心引发的安全问题,超算中心提供商需要提升用户安全认知、强化服务运营管理和加强安全技术保障等。需加强用户对不同重要性数据迁移的认知,并在服务合同中强化用户自身的服务帐号保密意识,可以提升用户对安全的认知;在服
15、务管理方面,严格设定关键超算中心的分级分权管理权限并辅之以相应规章制度,同时加强对合作供应商的资格审查与保密教育;加强安全技术保障,要充分利用网络安全、数据加密、身份认证等技术,消除用户对超算中心使用的安全担忧,增强用户使用超算中心的信心。八、流程管理流程是超算中心运维管理质量的保证。作为运维服务的物理载体,超算中心存在的目的就是保证服务可以按质、按量地提供。为确保最终提供给客户的服务是符合服务合同的要求,超算中心需要把现在的管理工作抽象成不同的管理流程,并把流程之间的关系、流程的角色、流程的触发点、流程的输入与输出等进行详细定义。通过这种流程的建立,一方面可以使超算中心的人员能够对工作有一个统一的认识,更重要的是通过这些服务工作的流程化使得整个服务提供过程可被监控、管理,形成真正意义上的“IT服务车间”超算中心建立的管理流程除应满足超算中心自身特点外,还应能兼顾客户、管理者、服务商与审计机构的需求。由于每个超算中心的实际运维情况与管理目标存在差异,超算中心需要建立的流程也会有所不同。九、应急预案管理应急预案是为确保发生故障事件后,尽快消除紧急事件的不良影响,恢复业务的持续营运而制定的应急处理措施。应急预案的注意事项:(1) 根据业务影响分析的结果及故障场景的特点编写应急预案,确保当紧急