告警中心
概述
开源版 Rainbond 不具备告警能力,当集群节点异常、组件资源超限或关键服务故障时,运维人员只能依赖手动巡检来发现问题,响应滞后。
Rainbond 告警中心是平台级的实时异常检测与智能告警系统,对接 Prometheus 数据源,内置丰富的告警规则模板,覆盖系统负载、CPU、磁盘、etcd、Kubernetes 控制面等核心指标。支持自定义告警规则和阈值,通过邮件、钉钉、飞书、Webhook 等多渠道通知,保障服务连续性。
功能对比
| 维度 | 开源版 | 告警中心插件 |
|---|---|---|
| 异常感知 | 无告警能力,依赖手动巡检 | 实时监测,异常自动触发告警 |
| 告警规则 | 无 | 内置系统/K8s/etcd 等规则模板,支持自定义 |
| 通知渠道 | 无 | 邮件、钉钉、飞书、企业微信、Webhook |
| 告警管理 | 无 | 活跃告警、历史告警、屏蔽规则、告警分组 |
核心能力
告警规则管理
内置丰富的告警规则模板,对接 Prometheus 数据源,覆盖主要运维场景:
- 系统级规则:系统负载过高、CPU 负载高、inode 使用率高等
- Kubernetes 级规则:控制面故障、DaemonSet 清理失败、证书即将过期等
- etcd 规则:健康检查失败、实例不可用、性能异常、Leader 丢失等
- CoreDNS 规则:CoreDNS 未就绪
每条规则可配置告警级别(S1 / S2 / S3)、附加标签、告警接收组,并支持逐条启用或禁用。

告警生命周期管理
告警中心提供完整的告警生命周期管理:
| 模块 | 说明 |
|---|---|
| 活跃告警 | 查看当前正在触发的告警,实时掌握系统异常状态 |
| 历史告警 | 查看已恢复的告警记录,支持回溯和统计分析 |
| 屏蔽规则 | 对已知问题或计划内维护设置告警屏蔽,避免告警噪声 |
多渠道通知
灵活配置通知策略,确保告警信息及时送达:
- 通知设置:配置通知规则,按告警级别和分组路由到不同渠道
- 通知模版:自定义通知内容模板,支持变量替换
- 联系方式:管理邮件、钉钉、飞书、企业微信、Webhook 等通知渠道
- 告警用户:管理告警接收人和接收组
数据源管理
支持对接 Prometheus 数据源,统一管理告警数据来源。支持配置多个数据源,适配多集群场景。
使用指南
启用插件
- 进入 平台管理 -> 插件中心,找到「告警中心」插件并启用。
- 启用后刷新页面,平台管理视图左侧「可观测性」分组下会出现「告警中心 」入口。
配置数据源
- 进入 告警中心 -> 数据源。
- 确认 Prometheus 数据源已就绪,或添加新的数据源。
管理告警规则
- 进入 告警中心 -> 告警规则。
- 插件已内置常用规则,可直接启用。
- 如需自定义,点击 新增 创建规则,配置数据源、告警表达式、级别和接收组。
- 通过筛选栏按数据源类型、级别、名称快速定位规则。
配置通知渠道
- 进入 告警中心 -> 联系方式,添加通知渠道(邮件、钉钉、飞书、Webhook 等)。
- 进入 告警中心 -> 通知模版,根据需要自定义通知内容。
- 进入 告警中心 -> 告警用户,添加告警接收人并分组。
- 进入 告警中心 -> 通知设置,将告警规则与通知渠道、接收组关联。
查看告警
- 活跃告警:查看当前触发中的告警,及时处理异常。
- 历史告警:回溯已恢复的告警,分析问题趋势。
- 屏蔽规则:对计划维护或已知问题设置临时屏蔽。