记一次Excutor引发的生产故障

当时看到《阿里巴巴Java编码规范》时，我感觉这里面说的不是大家都该知道的事情吗？真有必要汇总个规范出来？

出来混，总要还的，最近在老项目上就遇到了。

我们有两个服务，遗留项目，代码写的实在是不敢恭维。
用量其实不大，或者说偏小，但很默契的每两周挂一次，到今天是第三次了。

第一次OOM（没定位到根本问题）：
K8S网络组件异常，DNS解析失败，和架构一起排查后，发现问题如下：
1、系统原来使用过RabbitMQ，后来代码注释了
2、但POM中，还是有MQ的引用，别的不会做，但会启动MQ的监听
3、结果有一天K8S网络组件异常，DNS解析失败
4、MQ的心跳包瞬间起了几千个线程，连接找不到的MQ Server
5、服务挂了

推断的问题链路为：
DNS无法解析-》MQ心跳包不断起线程，而且没有连接池-》线程耗尽内存-》OOM-》服务挂掉

解决方法：
在POM中，干掉了MQ的引用，以为问题被修复了。

第二次OOM（大意了）：
1、表现仍是K8S网络组件异常，DNS解析失败
2、架构感觉容器DNS解析不了应该运维去查
3、只好拉上运维查，运维也比较给力，很快把日志给出来了
4、但是系统OOM时，并没有生成镜像，架构建议添加JVM参数，结果和运维排查后发现JVM参数已经加了，OOM应该有Dump啊
5、最后的结论是，非常规问题，等下次发生再解决
6、这个时候，已经感觉怪怪的了，问题根源根本没有找到啊，但大家都忙着机房搬迁，就没能跟下去（我的问题）

推断的问题链路为：
DNS无法解析-》不断起新线程去连接-》线程耗尽内存-》OOM-》但没有Dump文件-》无法定位问题

解决方法：
碰运气，等下一次OOM生成Dump文件？我当时咋想的呢

第三次OOM（真的解决问题了吗？）：
1、感觉不对劲啊，为什么总是两周挂，于是拉取了日志
2、日志上没看出什么来
3、仍然没有OOM的Dump
4、jstack一看线程，傻眼了，一堆线程在waiting on condition
5、赶快看相关源码，居然是用了Excutor，然后线程和队列都是默认的
6、你懂的，线程数和队列默认几乎都是无限的，参数设置错误，导致线程池根本不会服用原来的工作线程
7、服务挂掉是早晚的事情

推断的问题链路为：
DNS无法解析-》不断起新线程去连接-》线程耗尽内存-》OOM-》但没有Dump文件-》无法定位问题

解决方法：
修改Executor默认配置

咋说呢，再次认识到规范强制推行也是必要的，全靠人的个人水平，是不行的。他们的规范，恐怕也是各种坑汇总成的结晶吧。

Leave a Reply Cancel reply