事件中心是由阿里云日志服务提供的免费应用,将K8S集群中产生的事件采集到SLS中(默认保存90天,无资费),另外还提供了事件报表、查询分析、事件告警等功能。聚石塔提供了一键集成和开通事件中心的能力,产品页面暂未开放。默认地,核心应用的集群均已开通,有需求请联系@杭羽。
对于已经开通事件中心的集群,可以为集群本身以及集群上运行的云应用配置上告警。产品页面暂未开放。
自由配置,可自己指定应用环境以及集群(前提是已经开通了事件中心)。默认地,针对此次618核心应用,我们已经默认给配置了如下告警范围:
1)各个核心应用的所有正式环境;
2)核心应用所在集群;
特别的,如果需要监控其他应用的其他环境,可以联系@杭羽后台配置,因为产品页面功能暂未上线。
针对云应用,可以对每个应用设置相应的告警角色,从[负责人、开发、运维、测试]中选择N个。例如,针对应用A可以设置告警接收人为负责人+开发;针对应用B,可以设置告警接收人为负责人+运维。特别的,当前核心应用的告警接收人都设置为 负责人+开发+运维+测试,如果需要调整,请联系@杭羽后台修改。
针对集群,告警对象目前为集群创建时指定的集群负责人。如果需要调整,请联系@杭羽后台修改。
1)淘宝账号绑定的邮箱;
2)钉钉账号工作通知;
告警发送的通知方式和角色对应的账号类型有关。淘宝账号会发送到邮箱,钉钉登录的账号会发送到钉钉的工作通知。淘宝账号的告警接收人请确保邮箱设置正确,否则无法收到告警信息。
例如,“聚石塔测试账号”为淘宝账号登录,改用户为应用A的负责人,当应用A发生告警时,会推送告警信息到该账号的邮箱。淘宝账号的邮箱设置:权限管理/我的账号/个人信息。
主要是应用POD上的事件,例如容器重启(异常原因导致)、镜像拉取失败、健康检查失败、实例驱逐等。
[聚石塔事件告警] 类型:Pod 原因:Container Restart:Created container jck-container-13097-9016 告警项:K8s通用Warn警示事件(容器重启) 名称:jck-deployment-yacs-13097-9016-106932-55f7bbbf88-b5g9c 应用:test_webhook(13097) 环境:正式环境(9016) 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 备注:POD所在节点最近半小时内存在OOM事件 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#lfIj5
主要是集群ECS节点、集群系统应用或组件上的事件。比如docker hung、OOM、节点不可调度、节点NTP不可用、集群组件如coredns异常等。
[聚石塔事件告警] 类型:Node 原因:Memory cgroup out of memory: Kill process 21417 (java) score 2012 or sacrifice childKilled process 21316 (java), UID 0, total-vm:2786708kB, anon-rss:253788kB, file-rss:13156kB, shmem-rss:0kB 告警项:K8s通用Warn警示事件 名称:cn-zhangjiakou.192.168.49.240 主机:cn-zhangjiakou.192.168.49.240 集群:杭羽正式集群(c6ef2e43dce0e40119b6ede12c784e8d4) 告警时间:2020-06-15 19:50:11 用户:杭羽测试账号33 推荐方案:https://www.yuque.com/fczggw/wu7u0k/yrsmk6#08qwG