计费集群监控方案
1、 集群监控是指平台对主机设备与节点资源实施实时监测,及时发现异常并发出告警,同时生成指标数据和告警信息的可视化视图。
2、 平台内核主动向计费基础管理系统发送健康状态与运行进度等数据,支持预警提示及信息点文件的实时推送。
3、 平台内核被动接收来自计费基础管理平台的监控指令,执行后返回结果,支持其实时监控、故障排查等功能,保障系统稳定运行。
4、 公共监控内容涵盖各组件共有的运行状态信息,如主机情况、版本号、运行时长、当前连接数量以及CPU和内存占用等关键指标。
5、 组件特有监控内容是指反映组件自身特性的监控指标,例如分布式消息中间件的消息生产与消费数量、分布式缓存的内存使用情况等。
6、 将监控内容推送至计费基础管理平台,经处理与存储后,形成统一标准的数据视图,涵盖指标数据及告警信息两类视图。
7、 监控分为主动与被动两种模式,主机节点资源监控则是对主机各项资源使用情况进行实时监测与管理。
