云平台存储运维的故障诊断及恢复.docx
《云平台存储运维的故障诊断及恢复.docx》由会员分享,可在线阅读,更多相关《云平台存储运维的故障诊断及恢复.docx(8页珍藏版)》请在第一文库网上搜索。
1、云平台存储运维的故障诊断及恢复云平台存储是云基础设施的核心数据基石,包括块、文件和对象等一系列存储服务。由于云存储服务产品的技术复杂性以及与传统IT架构的不同,决定了云平台存储运维的难度高于传统IT环境存储的运维,尤其在面对复杂的生产运行故障时,能否准确快速进行故障诊断,找到问题的根因,并第一时间恢复业务正常运行,是云平台存储运维能力的重要体现。云平台存储运维中如何进行故障诊断及恢复?社区专家主张邓毓江西农信运维技术经理:本议题由北部湾银行技术经理哲哲蛙、江西裕民银行高级系统工程师李先科两位专家针对云平台存储运维中故障诊断与恢复的关键点进行了主张,两位专家的主张在经过我本人、某金融机构架构师李
2、威、民生银行科技部工程师白东旭专家的复议后,最终形成了一定的共识供大家参考。哲哲娃北部湾银行技术经理:在运维中,云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外,还需要额外关注云平台层的存储池内的容量告警。随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,针对金融行业互联网金融、云化、容器化、分布式改造等数字化转型在金融行业不断发展,金融业务向移动、普惠、敏捷和创新方向发展,需要新一代弹性基础设施、微服务平台、分布式中间件和海量数据分析系统提供有效支撑。存储作为关键基础设施依然承担着非常关键的作用,越来越多的存储资源逐渐由传统存储转化
3、为云平台存储。站在数据中心的生命周期来看,建设只是初期,运维阶段占整个生命周期的80%以上。虽然运维是企业业务系统从规划、设计、实施、交付到运维的最后一个步骤,但也是最终保证生产稳定运行的最重要的环节。金融行业云平台存储运维人员以往接触的更多是硬件,在云数据中心时代对运维人员的要求则已经从面向物理设备,转变为软硬结合,除集中式硬件外还需面向存储型X86服务器以及分布式存储软件的复合管理方式。集中式、分布式存储并存的现状,对存储运维人员在运维和故障诊断恢复方式方面提出了新要求。传统存储环境与云平台存储环境进入云服务时代后,站在存储的角度,集中式存储和分布式存储并存的云平台存储池具备了更强的云化和
4、服务化特性。云平台存储中,无论是集中式存储还是分布式存储按照提供的存储服务类型都可以分为几大类:块存储、文件存储、对象存储。块存储是应用最广的存储,块存储一般采用FCSAN或者IPSAN的方式,通过驱动映射将存储层划分的11JN给物理机或者虚拟化使用,目前在金融环境中,由集中式存储提供数据库用的块存储更多;云存储组网同时包括SAN网络和IPSAN网络,用于数据库的集中式存储池采用SAN组网更多,使用方式上以OpenStack架构为例,通过Cinder组件映射存储池给上层主机,划分资源直接由云平台调用执行,对接好环境后无需在存储上进行过多操作,由于分布式存储主要采用服务器组成,便于横向扩展,近年
5、云内块存储在设备选型上越来越倾向于分布式存储。文件存储主要应用于文件共享、图片视频存储场景。传统的文件存储采用IP方式与客户端建立连接,在使用上主要采用IP方式,对于设备架构这块有NAS集中式存储,也有高密服务器组成的分布式存储集群。而云存储场景使用更加灵活,可以使用为备份存储和文件共享目录,以云服务的方式进行直接挂载给虚拟机,设备选型上与传统存储一致,针对不同的使用场景对兼容性的需求和网络可达性要求比较高。对象存储是一种基于对象的海量存储,使用起来更灵活。传统的对象存储主要以IP域名的方式进行连接,应用在影像和归档场景比较多,直接通过接口调用使用,如S3、SWift接口,负载和DNS主要用在
6、集群外。云内的对象存储主要用作备份归档、大数据分析PaaS层依赖这些场景,如作为业务存储使用一般需要使用1VS负载。两种场景采用的设备均是服务器。整体运维以及故障诊断恢复传统存储与云平台存储存在使用、组网、选型、周边配套上的差异,对整体运维与故障诊断恢复上也有不同的需求。在运维中,云平台存储的运维除了可以在原生的集中式存储、分布式存储的系统进行运维之外,还需要关注云平台层的存储池内的容量告警。在云平台存储主机性能故障诊断在问题定界上由于云平台存储影响关联的虚拟机范围广,一般需要从问题虚拟机范围开始排查,检查整体平台告警情况,明确是部分虚拟机问题还是整体平台问题,针对主机使用的存储进行初步判断,
7、是否整个云平台虚拟机都有性能问题,还是部分使用某个特定存储池的虚拟机存在性能问题。如果是整个平台的问题,则需要排查是否云平台存储服务故障,是否是在云平台存储与底层的集中式或分布式存储接口出现问题,云平台管理云存储的服务是否存在问题;如果只是部分虚拟机的性能问题,则再分析着是来自于云平台存储中的集中式存储池还是分布式存储池。根据问题的现象和范围,先初步定界,然后再到具体的存储池以及存储设备上进行相应的排障处理。如果经过分析,问题都难以指向云平台存储性能的情况下,则同样需要完整的分析OS、主机、网络、平台各层面,这也需要运维工程师熟练掌握整体业务逻辑、了解现网架构、对云产品需要有较深的技术水平。集
8、中式存储池的性能瓶颈诊断,一般关注服务器、网络、存储层即可,问题定界相对简单,可以优先从集中式存储系统开始排查,检查集中存储原生运维系统上,是否存在端口流量、端口延迟、CPU资源、IOPS等明显的告警,再排查对应的SAN网络,检查是否存在SAN交换机上的端口拥塞和错误数明显增高等告警,以及主机端的IO端口故障导致的IO响应时间超长等问题,最终定位到问题根因。而分布式存储性能瓶颈的诊断,则在了解分布式存储的部署架构基础下,通过分布式存储的原生运维平台,查看分布式存储运维平台检查是否有告警,或者检查运行日志,分析是否存在节点故障、磁盘故障、端口故障、网络拥塞、分布式存储服务异常等故障,以便进行相应
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 平台 储运 故障诊断 恢复