文章
问答
冒泡
记一次查RDS错误日志

今天在登陆RDS查看慢sql的时候,查看日志发现异常情况,日志显示有三台主机在不停的尝试链接RDS,但是都被拒绝访问了。

一开始怀疑是主机上有啥定时任务,可能配错了RDS的数据库密码,导致不停的尝试链接。

于是问了一圈,没有哪个部门在跑定时任务。


于是分别登陆服务器上查看

使用命令 : crontab -l 查看没有系统级别的定时任务。

使用命令: cut -d : -f 1 /etc/passwd 查看用户列表,一大堆,放弃每个都切换看定时任务。



无果的情况下,开始检查主机上的进程和服务。

注意到,另外两台主机分别跑了我的几个服务,第三台主机上只运行了一台nacos集群节点。

如果说服务配错了数据库导致的不停重连,那么第三台主机上根本没有跑任何的服务,这就没办法解释了。



于是查看nacos集群的conf目录下的application.properties配置文件,发现是正确的配置数据库。并且登陆nacos集群来看,这台主机所在的节点心跳正常,也就是说排除nacos配错了地址导致的。



最后万般无果的情况下,使用命令 ps -ef|grep java|grep -v grep 来搜索这台主机上的所有java进程。终于有了发现,发现有两个几乎一模一样的java进程,并且被nacos引导启动的。这就引起了注意。nacos一般只会有一条进程。



于是尝试着杀掉一条pid比较小的进程。切换到RDS日志,发现三台主机少了一台的尝试链接。




这才明白:原来啊,之前配置nocos的时候,启动服务之前,配置了错误的用户名密码,就修改了正确的重新启动了一次,我以为老的那次启动失败会自动结束进程。没想到那次启动仍然在不停的尝试重启,也就是出现了每隔几分钟就尝试链接一次数据库。



分别重启了nacos集群上的节点之后,问题解决。


关于作者

Dane.shang
快30岁了还没去过酒吧
获得点赞
文章被阅读