云应用监控告警入口为:https://console.cloud.tmall.com/component/monitoralarm#/index。
告警类型 |
告警说明 |
实例阈值告警 |
基于基础监控,云应用容器POD的各项指标如CPU、内存使用量等。配置告警后,超过设定的阈值就会告警通知。 |
实例事件告警 |
云应用容器POD的各种异常事件,如容器重启、驱逐、探针失败、启动失败等。配置告警后,当有异常事件发生时就会告警通知。 |
资源告警-集群事件告警 |
监控集群节点(计算资源)的各种异常事件,如节点不可用、节点资源不足等,当有事件发生时产生告警。 |
注:事件监控以及告警,需要先为集群安装组件和开通事件告警,否则无法采集到集群中产生的事件 并且无法告警。安装手册:点击查看。
为应用配置监控告警首先需要创建监控告警实例,每一个应用下的每一个环境对应了监控告警的一个实例,所有在该实例中配置的告警规则会应用到该环境下所有的运行的应用上。具体创建方法如下。
1)点击创建实例告警;
2)设置告警实例信息,点击确认创建;
设置项 |
说明 |
关联告警模板 |
用户可以先创建告警模板,模板中先配置好告警规则,当关联对应的告警模板后,将自动的将模板中的所有规则应用到该监控告警实例下。 |
告警联系人角色 | 告警联系人角色分为 [负责人、开发、运维、测试] 四个,告警发生后将自动将告警发送到应用配置为对应角色的所有人的钉钉和淘宝绑定的邮箱上。 |
消息推送 |
告警消息支持通过TMC消息发送给服务商系统。勾选后,应用的告警消息会推送到TMC。您可以前往站内消息页面进行订阅,订阅的topic为:alibaba_monitor_MessageSend。 |
3)邮箱接收请确保邮箱设置正确,否则无法收到告警信息。邮箱设置:权限管理/我的账号/个人信息。
为实例创建监控告警规则分为两种方式,一种是直接在告警实例管理页中添加告警规则,另一种为在告警模板中配置监控告警规则,再将模板应用到对应的告警实例上。当用户有多个应用需要相同的告警配置时,为了减少配置,可以先配置告警模板,再统一应用到应用上。
① 进入管理界面;
② 进入告警规则模块;
③ 创建监控告警规则;
④ 配置监控告警信息,点击创建;
a)通道沉默周期:指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知;
b)开始/结束生效时间:告警将只在配置的时间段中进行告警;
c)阈值以及告警级别:监控告警分为三个告警级别【Info、Warn、Critical】,三个告警级别用于区分不同告警严重性,不同的告警级别可以配置不同的阈值;
d)持续周期:当实例当前值连续多长时间不满足阈值开始告警,每一个周期相当于一分钟。
① 进入告警模板;
② 创建告警模板;
③ 配置告警模板信息,点击创建;
④ 应用到分组上。