某大型企业IT运营管理平台建设技术方案.docx
项目编号:某大型企业IT运营管理平台建设技术方案目录1 项目背景72 建设原则82.1 标准化原则82.2 访问速度优先原则82.3 扩展性原则82.4 大集中原则82.5 安全性和稳定性原则93 需求分析103.1 业务需求103.2 功能需求103.2.1 用户角色103.2.2 监控管理中心建设103.2.3 个人门户113.2.4 基础平台113.2.5 监控大屏114 总体设计124.1 架构设计124.1.1 总体架构设计124.1.2 逻辑架构设计134.1.3 功能架构设计144.1.4 技术架构设计154.2 业务流程设计174.2.1 业务流程图174.2.2 业务流程描述174.3 数据流程设计184.3.1 数据流程图184.3.2 数据流程描述185 功能设计195.1 用户角色195.1.1 功能描述195.1.2 功能实现195.2 监控管理中心建设195.2.1 资产配置205.2.2 监控管理205.2.3 告警及工单管理235.2.4 统计分析245.3 个人门户245.3.1 功能描述245.3.2 功能实现255.4 基础平台255.4.1 系统管理255.4.2 流程管理265.5 监控大屏285.5.1 功能描述285.5.2 功能实现285.6 系统功能清单296 接口设计306.1 接口概述306.2 接口协,议306.3 接口频率306.4 主要字段307 数据模型设计317.1 数据表设计317.2 数据结构关系设计338 非功能性设计348.1 软件存储设计348.2 系统性能设计348.3 系统可靠性设计348.4 系统安全性设计359 实施方案379.1 实施原则379.2 实施策略389.3 实施步骤399.3.1 实施流程399.3.2 项目启动阶段409.3.3 需求分析阶段419.3.4 需求规格阶段419.3.5 设计阶段429.3.6 开发阶段429.3.7 测试阶段439.3.8 试运行阶段439.3.9 验收阶段449.3.10 项目维护阶段449.4 项目实施工作内容459.4.1 项目需求分析459.4.2 项目原型系统搭建459.4.3 项目测试及验收469.4.4 项目培训和和功能调试709.4.5 后期维护与应用升级709.5 项目组织管理709.5.1 项目人力资源管理机制719.5.2 组织结构719.6 项目质量管理759.6.1 质量管理体系标准759.6.2 质量控制过程759.6.3 质量评定计划759.6.4 质量管理措施769.6.5 软件质量控制7610 项目服务8010.1 服务工期8010.2 服务计划8010.3 项目维护期8010.4 驻场服务8010.5 交付文档8010.6 技术支持8110.6.1 规划支持8110.6.2 售后服务841项目背景随着企业数字化的迅猛发展,给IT运维带来了全新的挑战,子公司运维现 状体现在以下两方面:1、人工运维检查,效率低下、工作量大 随着新技术引入、新模块迭代,系统复杂度显著增强,单靠人工检查,工 作量大,效率低下,无以为继; 企业各在用系统和核心平台采用了不同的框架、开发技术,系统复杂度日 益增高,新的故障类型也在不断涌现,对运维人员的能力要求也不断提高。2、问题感知能力薄弱,导致用户满意度低 对子公司系统故障感知能力薄弱,无法及时处理故障,用户满意度降低。 子公司各系统应用规范日益增大,其中WLAN平台已接入49客户,涉及 2500个AP;视频监控平台已接入23个客户,涉及90路视频,智慧社区 已承载200社区,连接设备1770个。2建设原则本项目在软件设计方面严格按照相应的国际、国家标准和规范。在项目设计 中,重点考虑具备先进性、可靠性、实用性和经济性,使系统具有扩展性的升级 能力、安全性和保密性、标准化和开放性、灵活性和兼容性。2.1 标准化原则本项目中所有应用系统的接口、网络数据格式等将严格遵循标准化,对于部 分非标准的业务应用内容,也将根据业务的实际情况,为工作人员设计弹性化的 系统应用,以确保与其他标准化应用的充分兼容。2.2 访问速度优先原则在保证质量的基础上尽可能减少文件大小,并通过良好的网络部署设计架构, 以满足网络传输的需求;互动过程的网络带宽要求应适合一般带宽接入环境的网 络用户访问。2.3 扩展性原则扩展性原则包含2个方面的含义,一是系统功能的扩展,随着信息化建设的 不断深入,系统的功能可能将进一步扩大,因此,我们在设计系统的部署架构时, 会考虑到这方面的需求,使整个平台在软硬件上都具备很强的扩展能力,方便以 后更多功能模块的扩容与改造;二是用户数量的扩展,由于业务的不断开展和增 加,势必将带来管理用户的增加,使平台用户数量增多,本系统在进行建设部署 时,会考虑到未来用户数量增多、数据负载超过现有设备的问题,使整个平台具 备随时扩充用户的能力,有效地保证在各个应用层面的可伸缩性。2.4 大集中原则部署设计需要以集中和分布相结合为原则。本项目的设计采用数据集中、业务和服务分布的原则,使数据的处理最终在统一数据服务器进行数据的汇总和分 析。通过对整个体系框架实行分层、逐级设置权限操作,为内、外部提供有效、 充分的操作手段。2.5 安全性和稳定性原则本系统部署设计和实际建设中会充分考虑到了网络的安全性和稳定性,能保 证各种在网数据安全、完整,保证各类网络应用的畅通和稳定。3需求分析3.1 业务需求其运维面临的问题和挑战体现为:1、运维成本越来越高 随着业务发展子公司系统故障影响面越来越大,人工解决问题成本越来越 高;2、运维要求越来越高 子公司运维基础薄弱、专业人员稀缺,长期无法实现日常操作的标准化, 因人而宜产生较大波动的概率高;3、考核压力越来越大 母公司对各子公司自有系统运维能力的要求不断提升,考核力度逐年增长;4、运维难度越来越大智慧社区平台、移动OA平台、视频监控和分析平台、内部项目管理系统等 都使用了不同的最新技术,系统复杂度日益增高,新的故障类型也在不断涌现。3.2 功能需求321用户角色 运维工程师:资源、监控告警等配置工单处理告警查看分析。 系统管理员:查看、使用所有功能模块。322监控管理中心建设本期项目需实现如下功能: 支持资产配置功能 支持告警及工单管理功能 支持监控管理功能 支持统计分析功能323个人门户需提供平台与用户的交互界面。324基础平台 支持系统管理功能; 支持流程管理功能; 支持平台采集功能;325监控大屏需提供包含丰富配置组件的监控系统,并支持各类大屏显示设备。4总体设计4.1架构设计通过对本项目的理解,设计总体架构、功能架构、技术架构及网络架构,并对各个架构进行描述,具体如下:411总体架构设计4.11.2总体架构描述企业IT运营管理平台包括监控管理中心、操作管理中心、业务管理中心、 运营管理中心、运维管理中心等功能,本期重点完成监控管理中心。监控管理中 心主要由数据采集、数据处理、自动告警引擎以及数据分析组成。数据采集会自 动采集被监控系统的各项运行数据,再由统一处理根据配置的规则对数据进行分 析。当发现了故障或风险时由告警引擎负责告知维护人员,而系统管理员则可以 通过可视化报表及时掌握各系统的整体运行与故障情况。4.L2逻辑架构设计4.1.2.1 逻辑架构图业务处建扉败揖果集层4.1.2.2 逻辑架构描述软件架构包括数据源层、数据采集层、业务处理层、展示层及能力接口,具 体如下:数据源层:主要实现基础设施服务器、虚拟机、数据库、中间件、容器、应 用、服务等的接入;数据采集层:针对数据源层进行指标采集、日志采集、链路采集、采集网格、 采集存储等;业务处理层:实现资产配置、硬件配置、软件配置、中间件配置、告警管理、 通知管理、指标配置、采集配置、系统配置、服务配置、调用链管理、日志管理 等;展示层:实现视图、报表、大屏等可视化展示。能力接口:实现数据分发、同步、异步通知等功能。4,L3功能架构设计4.1,3.1功能架构图4.1,3.2功能架构描述企业IT运营管理平台由监控管理中心、操作管理中心、业务管理中心、运 营管理中心、运维管理中心等子系统组成,形成以客户体验为视角的业务监控能 力和运营分析能力,同时完成对运维工作的电子化、规范化、流程化的管理。本 期项目目标(上图绿色图标)旨在完成监控管理中心模块建设。4.L4技术架构设计4.1.4.1技术架构图GfitmaWtB-UI Skywelking U!KibMia范标示者若周羽稔示日电*示4.1.4.2技术架构描述企业IT运营管理平台通过运用Grafana > Skywalking UI > Kibana > Prometheus> Elasticsearch、LogStaSh等技术实现基础设施、服务器虚拟机中 间件数据库、容器服务、应用服务、性能等的监控及展示,具体如下:> Prometheus技术实现基础设施、服务器虚拟机、中间件数据库的指标采 集监控,其他性能指标通过PrOmetheUS PUShgateWay进行采集监控, 并通过Influxdb进行存储;> SkyWaIking技术实现容器服务指标的采集监控;> LOgStaSh技术实现应用服务及容器服务的日志采集,并通过 Elasticsearch实现日志的查询;> 指标展示、服务调用链展示、日志展示通过Grafana、Skywalking UI> Kibana等技术在WEB-UI层进行展示。4.L5网络拓扑设计4.1.5.1网络拓:卜图4.1,5.2网络拓扑描述OMC平台软件部署架构如上图所示,系统服务器清单如下:服务器用途Cpu内存存储数量备注监控、日志门户2核8G200G1部署监控门户WEB服务、NginX服务、接口服务监控计算Prometheus 监控数据存储InfluxDB 链路追踪服务Skywalking 链路追踪数据存储4核16G500G1部署Prometheus监控数据 采集服务日志缓冲kafka日志处理Iogstash 日志存储 Elasticsearch4核16GIT1部署ES服务集群,用于日 志查询、监控数据查询监控push网关4核16G500G1接入机监控收集collector 日志推送网关元数据存储Mysql4核16G500G1Mysql数据库,定期备份数 据一期目前仅需2台,其他利旧。4.2 业务流程设计421业务流程图将异甯监控值意生成运工学»xs画功采K问IM复悟、运 雄及时认关闭何分折持*t优化系