优测吧 RCA 【RCA】案例2:阿里云镜像BUG导致内网宿主机随机IP地址缺失

【RCA】案例2:阿里云镜像BUG导致内网宿主机随机IP地址缺失

点击数:160

问题现象:

现象一:2019年4月15日12点30分我司业务华北机房,数据库代理服务MyCAT一台主机无法连接,查看网卡,ip地址缺失。

现象二:十天之后,4月25日10点30分我司华东机房,mesos集群两个slave宿主机同样是ip地址突然缺失。

直接原因:阿里云的ECS主机的内网IP地址租约快到期前,会向阿里云DHCP服务续约,但是现在主机IP没了,等于说这个主机就连不上了,上面的所有服务全失联了。而且是随机不定啥服务因此失联,需要在收到宿主机报警短信后手动上去处理。

问题原因:

此乃阿里云镜像的bug。

阿里云公告:https://help.aliyun.com/knowledge_detail/94181.html

检查与修复CentOS7实例和Windows实例IP地址缺失问题

KB: 94181 · 更新时间:2019-08-13

问题描述

在连续使用ECS实例超过一段时间,且期间未重启过ECS实例,突然发生实例断网、网络瘫痪、无法Ping通公网IP和私网IP的情况。

问题原因

初次启动ECS实例时,系统使用DHCP(动态主机设置协议,DynamicHost Configuration Protocol)方式为弹性网卡自动分配IP地址,并获得IP地址租约到期时间。正常情况下,Linux系统的dhclient进程和Windows系统的DHCP Client服务会定期向DHCP服务器更新租约到期时间,以确保实例IP地址的可用性。

由于部分CentOS 7镜像(见适用范围章节)创建的实例会小概率清理dhclient进程,以及Windows Server操作系统的DHCP Client服务存在已知问题,导致您的实例无法自动更新IP地址的续租到期时间。当首次获得续租时间的IP地址到期后,实例的私网IP地址会被释放,导致实例网络不通。

适用范围

符合以下条件的ECS实例,并且ECS实例通过DHCP方式为弹性网卡自动分配IP地址,需要根据本文描述修复问题。静态配置的IP地址无需继续阅读文档。

基于以下CentOS7公共镜像创建的任何类型实例(在2018年5月31日之前创建,并在2018年11月15号之后没有重启的ECS实例)。

解决办法:

阿里云提供了脚本,检查发现有问题的主机可以通过脚本修复。我司所有机房都检查完并且都修复了。

RCA类型:

阿里云问题

关键词:阿里云、DHCP、租约到期、CentOS 7

本文来自网络,不代表优测吧立场,转载请注明出处:http://www.youceba.com/134/

作者: zhuifeng

上一篇
下一篇
0 0 投票数
Article Rating
订阅评论
提醒
guest
0 评论
内联反馈
查看所有评论
返回顶部
0
希望看到您的想法,请发表评论。x
()
x