云平台存储的全方位监控方案.docx
《云平台存储的全方位监控方案.docx》由会员分享,可在线阅读,更多相关《云平台存储的全方位监控方案.docx(20页珍藏版)》请在第一文库网上搜索。
1、云平台存储的全方位监控方案云平台如何运维,这是企业信息系统考虑是否上云之前必不可少要决策的因素之一,云平台如何监控,又是云平台运维体系建设的重点问题。云监控服务作为云平台运维体系的重要服务,它可用于收集获取云资源的监控指标或用户自定义的监控指标,探测服务可用性以及针对指标设置警报。使用户全面了解云上的资源使用情况、业务的运行状况和健康度,并及时收到异常报警做出反应,保证信息系统顺畅运行。本议题站在云平台存储的角度,深入解读云监控服务中存储监控和传统环境的存储监控区别,以及由传统环境存储过渡到云平台存储需考虑解决哪些存储监控建设方面的问题。云平台存储如何实施全方位监控?社区专家主张I邓毓江西农信
2、运维技术经理:本议题由我本人、民生银行科技部工程师白东旭和王向虎、某股份制银行存储架构师曾祥满几位用户专家针对议题下的关键点进行主张,这些主张在经过某农商银行架构师胡海光、某金融科技公司资深集成工程师孙伟光、某金融公司架构师刘艳春几位专家的复议之后,最终形成一定的共识,希望对同行有所参考。邓毓江西农信运维技术经理:云监控作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业运维成本。本文中所指的云监控为云平台(公有云或私有云)的性能监视与检测,它能为用户提供一个针对云资源、云服务或者云产品的全方位监
3、控平台。云监控本身也作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。云平台存储是云平台基础设施的核心基础资源,包括块、文件和对象等一系列存储产品,对用户提供数据存储服务。其架构复杂性及技术难度较云下传统集中式存储有较大提升,因此,云上不同类别的存储产品的精细化监控也变得尤为重要。基于此,本文将以三大知名公有或专/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容。一、云平台存储全方位监控建设方向云平台存储全方位监控建
4、设方向应当包括至少以下四个方面:云平台存储基础底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,其架构如图1所示,下面将一一进行介绍:图1:云平台存储全方位监控图1 .云平台存储基础底座监控如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线性增长的“开放存储”,又有要求低时延的“弹性计算”。作为底层平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,
5、作为基础底座,完备的监控是必备的。主要包括两大类别,一是存储产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息。2 .云平台存储产品监控云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基础监控指标和存储产品监控指标数据的功能。能够为用户实时地了解所拥有的存储服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题。云平台存储服务监控通过监控面板支
6、持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配置告警,还能通过AP1拉取指标数据,进行进一步使用和分析。对用户而言,主要关注以下三类服务监控指标数据:1)用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐量、流入流出流量或吞吐量、带宽、请求数或K)PS等。2)服务性能数据监控:反映用户在使用服务时的体验感信息。主要是请求延时,它是衡量服务性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。3)服务水平数据
7、监控:反映存储服务的稳定性以及用户的使用健康状态信息。例如服务可用性、内部错误数、返回错误情况、日志告警等。3 .事件告警平台云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计算、存储和网络的基础底座及云产品监控。1)事件服务:提供了事件类型数据上报和查询功能。方便用户将云上的各类重要事件或对云资源(包括云底座和云产品)的操作事件收集到云监控服务,并在事件发生时进行告警。事件服务保存并监控着云资源的关键操作,可通过事件了解到谁在什么时间对系统哪些资源做了什么操作。2)告警服务:提供了监控指标、事件的告警功能。用户对云资源的核心监控指标设置告警规则,当监控指标
8、触发用户设置的告警条件时,支持以邮箱、短信、HnP、HnPS等方式通知用户,让用户在第一时间得知该云资源发生异常,迅速处理故障,避免因资源问题造成业务损失。另外,云监控告警服务使用消息通知服务向用户通知告警信息。首先,用户需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,需要开启消息通知服务并选择创建的主题,这样在云资源发生异常时,云监控告警服务可以实时的将告警信息以广播的方式通知这些订阅者。告警规则支持企业项目,当选择了告警规则到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该告警规则。4 .多维度图表展示及报表云监控需要支持用户通过丰富
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平台 存储 全方位 监控 方案