入口1:应用列表-应用详情页-应用监控;
入口2:应用列表-应用监控(进入老版监控页面)-查看应用监控ARMS的监控页面。
监控类型 |
说明 |
应用基础监控 |
云应用(实例)运行过程中CPU 内存等基础指标趋势。默认免费集成。 |
应用性能监控 |
提供了快速接入阿里云ARMS(收费云产品)的能力,主要是针对JAVA和PHP类应用 |
应用事件监控 |
应用和集群生命周期事件,异常事件展示等。 |
入口:https://console.cloud.tmall.com/component/monitoralarm#/index
告警类型 |
说明 |
实例阈值告警 |
基于基础监控,云应用容器POD的各项指标如CPU、内存使用量等。配置告警后,超过设定的阈值就会告警通知。 |
实例事件告警 |
云应用容器POD的各种异常事件,如容器重启、驱逐、探针失败、启动失败等。配置告警后,当有异常事件发生时就会告警通知。 |
资源告警-集群事件告警 |
监控集群节点(计算资源)的各种异常事件,如节点不可用、节点资源不足等,当有事件发生时产生告警。 |
注:事件监控以及告警,需要先为集群安装组件和开通事件告警,否则无法采集到集群中产生的事件 并且无法告警。
安装手册:点击查看。
1. 按角色,可以在告警配置中指定 【负责人、开发、运维、测试】;
2. 按用户,可以在告警配置中指定具体的用户。
1)淘宝账号绑定的邮箱;
2)钉钉账号工作通知;
3)TMC消息。
如果是淘宝账号,告警信息只会发送到邮箱。钉钉登录的账号会发送到钉钉工作通知 + 邮箱。
邮箱接收请确保邮箱设置正确,否则无法收到告警信息。
邮箱设置:权限管理/我的账号/个人信息。
钉钉通知的告警示例:云应用容器实例,内存使用量超过设定的阈值。
主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。
[聚石塔事件告警] 类型:Pod 原因:Container Restart:Created container jck-container-13097-9016 告警项:K8s通用Warn警示事件(容器重启) 名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c 应用:test_webhook(13097) 环境:正式环境(9016) 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 备注:POD所在节点最近半小时内存在OOM事件 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5
主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。
[聚石塔事件告警] 类型:Node 原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB 告警项:K8s通用Warn警示事件 名称:cn-zhangjiakou.192.168.49.240 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG