合理的监控设置能减轻云上业务的运维成本和压力。设置合理的监控可以让您实时了解系统业务的运行情况,并能帮助您提前发现问题,避免可能会出现的业务故障。同时,告警机制能让您在故障发生后第一时间发现问题,缩短故障处理时间,以便尽快恢复业务。

前提条件

在开始设置云监控前,您需要完成以下操作:

背景信息

利用云监控的Dashboard功能为业务系统的云资源设置全局监控总览,方便随时检查整个业务系统资源的健康状态。为了更好地展示监控信息,本文中将ECS实例的CPU、内存、磁盘的使用率单独分组展示,将RDS实例的四项指标分两组展示。

指标展示效果图
本文中以一个网站为示例,介绍如何配置使用云监控。本示例中,使用的云产品包括ECS、RDS、OSS和负载均衡。 架构图

设置报警阈值和报警规则

建议您根据实际业务情况设置各项监控指标的报警阈值。阈值太低会频繁触发报警,影响监控服务体验。阈值太高,在触发阈值后没有足够的预留时间来响应和处理告警。

以CPU使用率为例,需要给服务器预留部分处理性能保障服务器正常运行,建议根据实际业务情况为您需要监控的ECS实例设置报警规则,例如CPU告警阈值为70%,连续三次超过阈值后开始报警。 设置CPU告警阈值
如果您还需要设置其他资源的报警规则,单击 添加报警规则,继续设置内存、磁盘的报警规则和报警通知人。示例如下:
  • 设置RDS监控

    建议根据实际情况为需要监控的RDS实例设置报警规则,例如将RDS的CPU使用率报警阈值设置为70%,连续三次超过阈值后开始报警。您可以根据实际情况设置硬盘使用率、IOPS使用率、连接数等其他监控项。查看更多监控项信息的方法,请参见云产品监控

    设置RDS监控
  • 设置负载均衡监控
    为了更好使用负载均衡的云监控服务,您需要先开启负载均衡的健康检查,并根据实际情况设置报警规则,例如将负载均衡带宽值的告警阈值设置为70%。 设置负载均衡监控

设置进程监控

对于常见的Web应用,设置进程监控,不仅可以实时监控应用进程的运行情况,还有助于排查处理故障。具体操作,请参见 添加进程监控设置进程监控

设置站点监控

在云服务器外层的监控服务,站点监控主要用于模拟真实用户访问情况,实时测试业务可用性,有助于排查处理故障。

设置站点监控

如果以上监控选项不能满足您的实际业务监控需求,您可以使用自定义监控。更多信息,请参见概览