Zabbix监控Windows服务器时出现首次网络错误,等待15秒的提示,导致无法正常获取监控项数据,图形绘制功能也受到影响,监控画面显示异常,数据更新中断,严重影响系统实时监控效果,需排查网络连接或配置问题以恢复稳定监控。
1、 观察现象一
2、 图形显示出现中断,但本地监控主机资源使用正常。
3、 观察现象二
4、 查看Zabbix服务器日志发现first network error, wait for 15 seconds报错,初步判断为被监控主机在网络连接方面存在问题,可能导致数据传输中断,需进一步排查网络稳定性及主机通信状态。
5、 观察现象三
6、 进入目标主机后,经多次排查,执行命令 netstat -nao | find /c TIME_WAIT 发现处于 TIME_WAIT 状态的端口数量过多,大量端口未及时释放,初步判断问题由此引起。
7、 排查故障
8、 通过百度搜索发现一条微软官方公告,内容指出:在Windows Vista、Windows 7、Windows Server 2008及Windows Server 2008 R2系统中,若系统持续运行达497天且未重启,所有处于TIME_WAIT状态的TCP/IP端口将不会被正常释放。这一现象与系统内部计时机制有关,长时间运行会导致端口资源无法及时回收,可能影响网络通信性能。建议定期维护或重启系统以避免潜在问题。
9、 排查故障
10、 重新连接受监控主机,检查网络使用情况时发现,问题发生时刻,Windows服务器运行时间恰好为497天。
11、 故障应对策略
12、 重启服务器可临时解决,但运行497天后问题仍会重现。
13、 通过官网下载并安装对应补丁,即可彻底解决该问题。
