《智能网管优化分析方案建议.docx》由会员分享,可在线阅读,更多相关《智能网管优化分析方案建议.docx(11页珍藏版)》请在第一文库网上搜索。
1、智能网管优化分析方案建议目录1 背景分析22 方案概要32.1 基于故障事件的大数据智能分析32.2 基于性能指标的大数据分析与自学习智能预测分析62.2.1 智能预测分析62.2.2 建立网络性能管理平台,提供完整的指标82.3 新一代展现门户91背景分析经过多年的建设,中国银行总行目前已建成较为完备的网络运维管理平台,主要包括:,网络集中监控平台:实现对全行网络及分支行骨干接入线路的网络集中监控,全网Syslog/Trap的集中故障事件管理以及性能管理(PING/RPING/SNMP);工网络自动化平台:实现网络自动化配置、开通、网络配置信息备份等功能,与运维资产库、CMDB系统、流程平台
2、结合实现完整的网络自动化变更流程;同时,金融行业业务的多元、快速发展对中国银行总行网络运维提出了多方面的挑战:一方面是业务规模持续扩大而人力资源有限的现状;另一方面是如何利用持续发展的前沿技术(大数据、云计算、认知学习等)进一步提升网络运维管理的智能化、可视化,从而快速有效的适应业务发展,提高业务的可用性。本方案主要是在理解中国银行总行网络运维管理的现状以及发展的业务需求,经过有针对性的分析,建议在网络集中监控平台的基础上实现网络运维大数据分析,主要包括:1 .故障事件大数据分析:在目前故障管理平台初步建成的基础上,实现故障告警基于运维层面的大数据分析和深入挖掘,有效结合监控平台、运维资产库、
3、CMDB及业务关联数据,实现故障告警的多层次故障根源分析(Root Cause Analysis)和业务影响性分析,通过智能化的手段压缩告警量,并快速定位网络故障根源;2 .可视化能力增强:基于Netcool新版本提供的平台展现技术,实现网管平台各维度(故障、性能、业务相关、周边系统关联数据)在ECC监控中心的大屏展现,提升整个监控平台的“可视化”功能;3 .性能指标大数据分析及智能化预测分析:在建立健全现有网络性能管理平台所采集指标(KPI)的基础上,借助IBM沃森(Watson)机器人大数据分析和智能化自学习的技术,在网络所支撑的各类业务质量指标(KQI)和相关网络基础结构性能指标(KPI
4、)的连续变化中通过机器学习的方式,分析多变量的组合变化规律,基于成熟预定义的分析算法如格林杰(Granger)因果关系检验等,快速定位指标组合变化的异常发生,从而可预测网络业务质量可能下降的任何先兆,并通过预测性告警的方式即时通知相关管理人员。2方案概要基于对本次项目的背景及目标分析,整个方案实现的大致逻辑框架可参考如下:下面将从故障事件大数据智能分析、基于性能指标的大数据分析与认知学习智能预测、以及新一代展现门户三个维度去阐述方案的概要设计:2.1 基于故障事件的大数据智能分析针对故障事件大数据认知分析实现,能够快速有效地关联活动故障告警与多个关联要素及相关系统中的数据,如CMDB或运维资产
5、库所包含的网络业务配置数据,以及活动故障告警与历史故障告警之间的上下文搜索和快速匹配,从而实现包括RCA故障根源分析、业务影响性分析、和历史告警挖掘和发生规律回溯等目标,并有效降低所需关注的告警量,降低管理员日常负荷及重复工作比率。例如,从实践经验上讲,故障根源分析可以围绕以下三个层面展开:1 .从网络拓扑的角度进行拓扑相关性分析定位故障根源:例如网络板卡故障引起的端口故障,网络核心设备/核心线路/防火墙等故障引起的业务访问故障或网络访问/接入故障;2 .从网络技术相关性的角度进行故障根源定位:例如从网络端到端质量下降,而“Voice”业务的QOS队列饱和,“Assured” .业务的QOS队
6、列未饱和来推测网络出现瓶颈的根源在于垃圾流量过大;或者从网络技术相关性的角度推断,SDH传输等承载网的网络质量故障,会引起大量所承载1P层业务端口/线路的故障。3 .从时间相关性的角度进行故障根源定位分析:从故障发生时间的维度,故障根源信息往往发生在前,派生故障事件往往发生在后。通过这个规律实现故障时间窗口管理,抽取典型告警,并通过时间相关性分析规则排除掉不合理的分析结果,提高分析的准确性。针对故障事件大数据分析,IBM提供N0I(Netcool Operations Insight)方案实现,该方案内置整合了 Netcool/OMXIbusImpact 和 IOALA(IT Operatio
7、ns Analytics - Log Analysis)三个产品模块,并可与中国银行总行已有网管Netcool/OMNIbus事件平台紧密结合,关联多维度外部数据源(如网络与业务配置数据)及历史告警大数据分析,提升网络运维的敏锐度和效率,减少网络宕机或不稳定现象,并提供可以灵活自定义关联分析策略的故障事件分析引擎。Simplify Delivery/Maxlmise ROIReducing TCO60% faster in creation of dashboards,50% faster installBasic operations managementcapability within
8、30 minutes of install 70% faster creation of event tools &promptsSAVING of 2-3 PMs of effort each timeOracle release a Java security updateAdd Event Search capability that enablesad-hoc queries to be run in 30 Secondsinstead of Hours Further reduce volume of eventspresented to operators by minimum o
9、f 10%Save 4-6 weeks custom development &ongoing OPEX for maintenance ofstandalone notification toolReal-time Analytics forOperational AgilityHistorical Analytics forOperattonai EfficienGyImprove Operational Agility/Efficiencythrough Analytics & Social简而言之,故障事件的大数据分析可帮助我们回答以下三个问题:1 .网络将要发生什么情况?2 .网络已
10、经发生哪些情况?3 .网络运维怎样才能更有效率?NOI内置的Impact分析引擎同时具备多种数据源接口(Data Source Adapter)实现多维度数据的实时获取,基于Policy的方式按照“压缩丰富关联分析自动修正通知上报升级”的处理过程,对故障事件,可关联多维度外围数据源(如网络资产库或CUDB)实现故障告警的内容丰富、关联压缩、根源定位等分析功能。Tivoli Netcool/lmpact Data Source Adapter List Alcatel 5620 (RO) Cramer Dimension POP3/SMTP DB2 Flat File (RO) Jabber I
11、nformixJava Message Service LDAP MySQL MS SQL ODBCTivoli Netcool/OMNIbusOraclePostgres SQLTivoli Network Monitor (formeriy Netcool/Precision)Tivoli Service Request ManagerSmallworld (RO)SNMPSocket DSA (Universal)SybaseTIBCO/RendezvousWeb ServicesXML (RO)API (for custom DSA)Pre-scriptedData AccesstPr
12、edefined Pre-defined ActiongwPolicies Integration Operator ViewsCommandsSuppression Enrichment Correlation Auto-correction Notification Escalation下图是基于中国银行总行目前Netcool现状对于增强告警事件大数据分析的建议:现有平台业务影响性分析根源故障分析1.只具有COC和OM NIBUS之间数据丰富和基本关联能力2.关联手段简单,Rulesfile+Trigger f可考虑引入Impact多数据源关联分析目前中国银行Netcool网管只具备COC
13、 (或NMCT)配置工具和OMNIBUS之间的数据非实时定期同步能力,缺乏更多维度的实时关联分析能力,并且分析手段简单单一,只能通过OMNIbus内置的Rules file和Trigger进行规则定义,难以实现复杂的分析场景和算法。而通过N01分析平台,可以带来的好处:4 .实现真正多维度的以故障事件为核心的关联分析场景,可以有效集成中国银行网管平台目前CMDB数据、NMCC配置工具数据,其他业务系统数据,业务流量数据等进行实时关联分析;5 .实现业务影响性分析功能,实时定位告警对于业务的影响性;6 .实现拓扑相关性、技术相关性、时间相关性等层面的故障根源分析场景,通过机器学习智能分析提取告警
14、发生特征,定位故障根源,从而有效压缩告警量;7 .基于Impact实现事件自动丰富功能,可以做到NMCC配置数据更新实时生效,不用对生产环境的Probe配置做任何修改,减少生产环境实施变更的操作。2.2基于性能指标的大数据分析与自学习智能预测分析2.2.1 智能预测分析单纯针对性能指标进行采集监控并设定阀值告警是不够的,因为第一,阀值有可能设置的不符合网络实际运行变化状况,第二,为了把阀值设定的更符合实际运行状况,需要投入大量人力去根据实际运维经验进行阀值的界定梳理工作。为了确保网络业务7*24的连续性,防止业务中断,需要在网络故障对业务造成真实影响之前,基于对大量指标数据的智能分析,抓住网络
15、异常产生的蛛丝马迹,预测到问题可能产生的状况,从而争取到预防性措施所需的响应时间。这是网络和IT运维的梦想方向,但之前往往缺乏成熟可落地的技术/产品能够真正实现。深度自学习智能分析是目前大数据分析技术的前沿技术。将自学习智能分析的技术手段投入到网络和IT运维领域,通过对多维度的运维数据,性能指标(KPI)数据进行智能学习与分析,从而可以实现智能预测分析功能。IBM近年来大力投入自学习与智能分析技术,这一领域最著名的就是Watson机器人。2011年2月16日,IBM Watson机器人在美国热门的电视智力问答节目“危险边缘”中战胜了两位人类冠军选手,最终勇夺冠军宝座。近年来,IBM致力于将Watson技术小型化和商用化,而Watson技术在网络和IT运维管理领域的使用,即产生了 IT Operations Analytics -Predictive Insight (简称IOAPI)这一运维分析产品,通过对多性能指标KPI的自学习,从而预