系统事件是影响实例运行状态的有计划的底层运维事件,或非预期维修事件。特指因探测到更新维护、违规操作、系统故障、软硬件故障、到期或欠费时,发生的重启、停止或者释放ECS实例等操作的事件。

运维事件对比

为提升云服务器ECS的系统可靠性、性能和安全防护,阿里云对底层物理服务器进行日常维护,修复潜在的故障。当探测到物理服务器故障或者安全隐患时,ECS将实例在线热迁移到健康的服务器,保持实例的健康运行状态。这些维护是日常维护。日常维护有别于系统事件,日常维护通常是无感知完成的,不会发送维护通知,也不对实例造成影响。

系统事件则会及时给您发送通知、应对措施和事件周期等信息。对于有运维计划的系统事件,会提前告知对ECS实例的影响和预计执行时间点。您可以在执行系统事件之前及时备份数据、做好应用层面的准备。此外,您可以查询过去一周内已处理的系统事件,获取故障诊断和复盘分析数据。

使用限制

已停售的实例规格族不支持系统事件功能,更多信息,请参见已停售的实例规格

事件类型

系统事件类型、影响及应对建议见下表所示。

影响 事件类型 事件参数 应对建议
实例重启 因系统维护实例重启 SystemMaintenance.Reboot 在用户操作窗口期合适的时间点:
  1. 重启ECS实例或者修改预约重启实例。更多信息,请参见修改预约重启时间
    说明 必须在ECS控制台重启实例或调用API RebootInstance,在实例内部重启无效。更多信息,请参见 重启实例
  2. 在应用层面,切换流量。或从负载均衡实例中移除有计划维护的ECS实例,避免影响您的业务。
  3. (可选)为实例挂载的云盘创建快照备份数据。
实例异常重启 因系统错误实例重启 SystemFailure.Reboot 更多信息,请参见实例自动恢复事件
因实例错误实例重启 InstanceFailure.Reboot 当您收到事件通知时,实例正在或已完成重新启动,建议您:
  • 查看实例系统日志和屏幕截图排查故障,检查系统发生崩溃的原因,避免再次引发崩溃问题。更多信息,请参见查看实例的系统日志和屏幕截图
  • 验证实例和应用是否恢复正常。
实例重新部署 因系统维护实例重新部署 SystemMaintenance.Redeploy 更多信息,请参见重新部署本地盘实例
因系统错误实例重新部署 SystemFailure.Redeploy 更多信息,请参见重新部署本地盘实例
实例停止 因包年包月期限到期实例停止 InstanceExpiration.Stop 续费资源。更多信息,请参见续费概述
因账号欠费按量付费资源停止 AccountUnbalanced.Stop

建议您及时为账号充值,避免因支付方式余额不足而停止实例。

实例释放 因包年包月期限到期实例释放 InstanceExpiration.Delete 续费资源。更多信息,请参见续费概述
因账号欠费按量付费资源释放 AccountUnbalanced.Delete

建议您及时为账号充值,避免因支付方式余额不足而停止实例。

实例释放 因实例创建失败而自动释放 SystemFailure.Delete 更多信息,请参见实例创建失败事件
云盘性能影响 云盘性能受到严重影响 Stalled 在应用层面,隔离对该云盘的读写操作。或从负载均衡实例中暂时移除该ECS实例。
本地盘受损 本地盘出现损坏 ErrorDetected 更多信息,请参见本地盘实例系统事件概述
实例重启,受损本地盘被隔离 因系统维护计划重启并隔离坏盘 SystemMaintenance.RebootAndIsolateErrorDisk 更多信息,请参见隔离损坏的本地盘(CLI)
实例重启,本地盘恢复正常 因系统维护重启并重新初始化坏盘 SystemMaintenance.RebootAndReInitErrorDisk 更多信息,请参见隔离损坏的本地盘(CLI)
磁盘卸载异常 因系统维护清理残留磁盘 SystemMaintenance.CleanInactiveDisks 登录ECS控制台,查看待处理事件,按照提示处理事件。更多信息,请参见查看系统事件
突发性能实例发生性能受限 因可用CPU积分不足,突发性能实例的性能无法超过基准性能 N/A 您可以通过以下任一方式应对:
受损本地盘被隔离 因系统维护隔离坏盘 SystemMaintenance.IsolateErrorDisk 更多信息,请参见隔离损坏的本地盘(CLI)
本地盘恢复正常 因系统维护重新初始化坏盘 SystemMaintenance.ReInitErrorDisk 更多信息,请参见隔离损坏的本地盘(CLI)

事件状态

系统事件的生命周期状态如下表所示。

事件状态 属性 说明
Inquiring 中间状态 问询中,等待您确认,确认后,事件进入Executing状态
Scheduled 中间状态 系统事件已发生,尚未执行
Avoided 稳定状态 您在用户操作窗口期内提前响应系统事件
Executing 中间状态 正在执行
Executed 稳定状态 已完成
Canceled 稳定状态 已计划的系统事件被取消
Failed 稳定状态 执行失败

事件窗口

系统事件有如下窗口期:

  • 用户操作窗口期:系统事件计划发起到执行之间的时间段。您可以根据该事件对业务的影响情况,选择推荐的应对方式提前修复系统事件,或者等待执行默认应对动作。对于ECS主动修复系统故障触发的系统事件,ECS根据系统维护操作计划安排提前一段时间向您发送事件通知。

    以下为用户操作窗口期的时长说明:

    • 处于问询中(Inquiring)状态的事件,没有时长限制。
    • 系统维护相关事件通常为24~48小时。
    • 包年包月实例即将到期而停止的事件为3天。
    • 账号欠费而停止的事件小于1小时。
    • 因计费原因引发的系统事件,实例会被立刻停止,并在15天后被释放。
    • 突发故障或者违规操作等非技术因素导致的非预期系统事件,通常不存在用户操作窗口期。
  • 事件执行窗口期:系统事件被响应到执行完毕的时间段,事件执行后您会收到系统事件的执行结果。

    以下为事件执行窗口期的时长说明:

    • 修复故障类系统事件通常在10分钟内完成。
    • 突发故障或者违规操作等非技术因素导致的非预期系统事件,只有短暂的执行窗口期。
事件执行窗口期