集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

ZJulius · 2024-05-08T08:13:03Z

事情发生在nacos1.3.2集群平滑升级到2.0.3集群的场景下（三个节点）
1、平滑升级后，关闭双写，运行一天突然其中一个节点无征兆宕机（请问这种情况下能通过日志链路查到宕机原因么）？
2、通过日志14:25:18秒重启节点，伴随着十分钟左右的循环报错后突然又恢复正常，有可能通过日志看出导致的原因么？

nacos.log

KomachiSion · 2024-05-10T05:34:27Z

如果是进程crash的话可能可以，但是如果是系统层面的宕机，可能需要从系统日志里去分析了。
这个报错通常是网络问题，请求尝试发送的时候，链接已经断开了。

ZJulius · 2024-05-10T11:08:40Z

1、已经查明是内存溢出导致节点直接宕机
2、在重新复现模拟过程中，该问题能直接复现，在循环报错的过程中，telnet 所有端口，服务器之间通信是没问题的，有没有其他人或者你们自己test的时候遇到想同的情况么？为什么重启之后，会存在将近十分钟左右的网络异常啊？如果是短时间的抖动还能理解。

KomachiSion · 2024-05-15T02:19:35Z

1、已经查明是内存溢出导致节点直接宕机 2、在重新复现模拟过程中，该问题能直接复现，在循环报错的过程中，telnet 所有端口，服务器之间通信是没问题的，有没有其他人或者你们自己test的时候遇到想同的情况么？为什么重启之后，会存在将近十分钟左右的网络异常啊？如果是短时间的抖动还能理解。

我自己部署的环境，故障演练从没有出现过这个问题，有这个报错都是出现了底层网络故障或节点LOAD很高的情况。
因为这个报错完全是由Grpc爆出的，nacos没有对grpc做改动，因此只有网络问题导致连接断开，或者两端中其中一端存在资源问题（CPU、内存）不足导致。

KomachiSion · 2024-05-24T03:28:48Z

No more response from author for a long time, and this problem seems env problem.

KomachiSion added the status/need feedback label May 10, 2024

KomachiSion added kind/question Category issues related to questions or problems status/need feedback and removed status/need feedback kind/question Category issues related to questions or problems labels May 24, 2024

KomachiSion closed this as not planned Won't fix, can't repro, duplicate, stale May 24, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

ZJulius commented May 8, 2024

KomachiSion commented May 10, 2024

ZJulius commented May 10, 2024

KomachiSion commented May 15, 2024

KomachiSion commented May 24, 2024

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

集群一个节点毫无征兆的宕机，重启之后报错Stream closed before write could take place #12067

Comments

ZJulius commented May 8, 2024

KomachiSion commented May 10, 2024

ZJulius commented May 10, 2024

KomachiSion commented May 15, 2024

KomachiSion commented May 24, 2024