Ceph日常运维常见难点和故障分析.docx
《Ceph日常运维常见难点和故障分析.docx》由会员分享,可在线阅读,更多相关《Ceph日常运维常见难点和故障分析.docx(19页珍藏版)》请在第一文库网上搜索。
1、Ceph日常运维常见难点和故障分析XbWCeph日常运维中一些典型问题的解决办法,由社区会员分享。感谢以下分享者:李航存储架构师、Zhuqibs企业运维负责人、宁泽阳银行IT系统运营管理、WZPyStCdc、ntzs金融行业运维工程师、大黑兔爱吃鱼系统架构师、dj12023技术经理、IhSO981101410金融行业运维工程师CePh是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将CePh分为三大块,分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是CePh的块设备存储,比如在OPenStaCk项目里,Ceph的块设备存储可以对接OpenStack的
2、cinder后端存储、G1ance的镜像存储和虚拟机的数据存储,比较直观的是Ceph集群可以提供一个raw格式的块存储来作为虚拟机实例的硬盘。CePh相比其它存储的优势点在于它不单单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡,同时由于CePh的良好设计,采用了CRUSH算法、HASH环等方法,使得它不存在传统的单点故障的问题,且随着规模的扩大性能并不会受到影响。企业在实际Ceph遇到的五大问题:一、扩容问题CePh中数据以PG为单位进行组织,因此当数据池中加入新的存储单元(OSD)时,通过调整OSDMAP会带来数据重平
3、衡。正如提到的,如果涉及到多个OSD的扩容是可能导致可用PG中OSD小于min_size,从而发生PG不可用、IO阻塞的情况。为了尽量避免这种情况的出现,只能将扩容粒度变小,比如每次只扩容一个OSD或者一个机器、一个机柜(主要取决于存储隔离策略),但是这样注定会带来极大的运维工作量,甚至连扩容速度可能都赶不上数据增长速度。二、数据迁移过程中的IO争用问题在频繁数据迁移过程中带来的IO争用问题。当集群规模变大后,硬盘损坏、PG数量扩充可能会变得常态化。三、PG数量调整问题在解决了数据迁移过程中的PG可用性问题和IO争用问题后,提到的PG数量调整问题自然也就解决了。四、集群利用率问题存储成本问题主
4、要是讲集群可用率问题,即:CePh集群规模增大后,伪随机算法导致了存储资源分布不均衡,磁盘利用率方差过大的问题。五、运维复杂度问题CePh本身是一个十分复杂的体系,要做到稳定运维非常看重团队的实力。以下是一些典型问题解答,欢迎参考:1、PG和PGP的区别是什么?调整PGP会不会引起PG内的对象的分裂?1ucien168:首先来一段英文关于PG和PGP区别的解释:PG二P1acementGroupPGP=P1acementGroupforP1acementpurposepg_num=numberofp1acementgroupsmappedtoanOSDWhenpg_numisincreased
5、foranypoo1,everyPGofthispoo1sp1itsintoha1f,buttheya11remainmappedtotheirparentOSD.Unti1thistime,Cephdoesnotstartreba1ancing.Now,whenyouincreasethepgpnumva1ueforthesamepoo1,PGsstarttomigratefromtheparenttosomeotherOSD,andc1usterreba1ancingstarts.ThisishowPGPp1aysanimportantro1e.ByKaranSingh以上是来自邮件列表的
6、KaranSingh的PG和PGP的相关解释,他也是1earningCeph和CephCOOkbOe)k的作者,以上的解释没有问题,我们来看下具体在集群里面具体作用: PG是指定存储池存储对象的目录有多少个,PGP是存储池PG的OSD分布组合个数 PG的增加会引起PG内的数据进行分裂,分裂到相同的OSD上新生成的PG当中 PGP的增加会引起部分PG的分布进行变化,但是不会引起PG内对象的变动宁泽阳:我的理解是PgP用于承载Pg,建议保持Pg和Pgp一致,调整Pg数目时会进行Pg内对象分裂,调整PgP时会引起Pg重分布。ZhUqibs:(1) PG是指定存储池存储对象的目录有多少个,PGP是存储
7、池PG的OSD分布组合个数(2) PG的增加会引起PG内的数据进行分裂,分裂到相同的OSD上新生成的PG当中(3) PGP的增加会引起部分PG的分布进行变化,但是不会引起PG内对象的变动2、多节点组成CePh存储集群后,时间如何同步?宁泽阳:集群内配置ntp服务器,其他节点从这里同步时间即可。或者集群配置公司通用的ntp服务器也可以,如果有的话。WZPyStCde:每台服务器开启NTP服务进行同步1UCienI68:通过ntp然后进行监控,如果不同步,集群也会出现告警提示。zhuqibs:集群节点的时间同步,是传统的ntp服务3、当CePh集群存储容量快接近水位,扩容一次扩多少节点合适?宁泽阳
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Ceph 日常 常见 难点 故障 分析
