系统事件是影响实例运行状态的有计划的底层运维事件,或非预期维修事件。特指因探测到更新维护、违规操作、系统故障、软硬件故障、到期或欠费时,发生的重启、停止或者释放ECS实例等操作的事件。
运维事件对比
为提升云服务器ECS的系统可靠性、性能和安全防护,阿里云对底层物理服务器进行日常维护,修复潜在的故障。当探测到物理服务器故障或者安全隐患时,ECS将实例在线热迁移到健康的服务器,保持实例的健康运行状态。这些维护是日常维护。日常维护有别于系统事件,日常维护通常是无感知完成的,不会发送维护通知,也不对实例造成影响。
系统事件则会及时给您发送通知、应对措施和事件周期等信息。对于有运维计划的系统事件,会提前告知对ECS实例的影响和预计执行时间点。您可以在执行系统事件之前及时备份数据、做好应用层面的准备。此外,您可以查询过去一周内已处理的系统事件,获取故障诊断和复盘分析数据。
使用限制
已停售的实例规格族不支持系统事件功能,更多信息,请参见已停售的实例规格。
事件类型
系统事件类型、影响及应对建议见下表所示。
影响 | 事件类型 | 事件参数 | 应对建议 |
---|---|---|---|
实例重启 | 因系统维护实例重启 | SystemMaintenance.Reboot | 在用户操作窗口期合适的时间点: |
实例异常重启 | 因系统错误实例重启 | SystemFailure.Reboot | 更多信息,请参见实例自动恢复事件。 |
因实例错误实例重启 | InstanceFailure.Reboot | 当您收到事件通知时,实例正在或已完成重新启动,建议您:
|
|
实例重新部署 | 因系统维护实例重新部署 | SystemMaintenance.Redeploy | 更多信息,请参见重新部署本地盘实例。 |
因系统错误实例重新部署 | SystemFailure.Redeploy | 更多信息,请参见重新部署本地盘实例。 | |
实例停止 | 因包年包月期限到期实例停止 | InstanceExpiration.Stop | 续费资源。更多信息,请参见续费概述。 |
因账号欠费按量付费资源停止 | AccountUnbalanced.Stop | 建议您及时为账号充值,避免因支付方式余额不足而停止实例。 |
|
实例释放 | 因包年包月期限到期实例释放 | InstanceExpiration.Delete | 续费资源。更多信息,请参见续费概述。 |
因账号欠费按量付费资源释放 | AccountUnbalanced.Delete | 建议您及时为账号充值,避免因支付方式余额不足而停止实例。 |
|
实例释放 | 因实例创建失败而自动释放 | SystemFailure.Delete | 更多信息,请参见实例创建失败事件。 |
云盘性能影响 | 云盘性能受到严重影响 | Stalled | 在应用层面,隔离对该云盘的读写操作。或从负载均衡实例中暂时移除该ECS实例。 |
本地盘受损 | 本地盘出现损坏 | ErrorDetected | 更多信息,请参见本地盘实例系统事件概述。 |
实例重启,受损本地盘被隔离 | 因系统维护计划重启并隔离坏盘 | SystemMaintenance.RebootAndIsolateErrorDisk | 更多信息,请参见隔离损坏的本地盘(CLI)。 |
实例重启,本地盘恢复正常 | 因系统维护重启并重新初始化坏盘 | SystemMaintenance.RebootAndReInitErrorDisk | 更多信息,请参见隔离损坏的本地盘(CLI)。 |
磁盘卸载异常 | 因系统维护清理残留磁盘 | SystemMaintenance.CleanInactiveDisks | 登录ECS控制台,查看待处理事件,按照提示处理事件。更多信息,请参见查看系统事件。 |
突发性能实例发生性能受限 | 因可用CPU积分不足,突发性能实例的性能无法超过基准性能 | N/A | 您可以通过以下任一方式应对: |
受损本地盘被隔离 | 因系统维护隔离坏盘 | SystemMaintenance.IsolateErrorDisk | 更多信息,请参见隔离损坏的本地盘(CLI)。 |
本地盘恢复正常 | 因系统维护重新初始化坏盘 | SystemMaintenance.ReInitErrorDisk | 更多信息,请参见隔离损坏的本地盘(CLI)。 |
事件状态
系统事件的生命周期状态如下表所示。
事件状态 | 属性 | 说明 |
---|---|---|
Inquiring | 中间状态 | 问询中,等待您确认,确认后,事件进入Executing状态 |
Scheduled | 中间状态 | 系统事件已发生,尚未执行 |
Avoided | 稳定状态 | 您在用户操作窗口期内提前响应系统事件 |
Executing | 中间状态 | 正在执行 |
Executed | 稳定状态 | 已完成 |
Canceled | 稳定状态 | 已计划的系统事件被取消 |
Failed | 稳定状态 | 执行失败 |
事件窗口
系统事件有如下窗口期:
- 用户操作窗口期:系统事件计划发起到执行之间的时间段。您可以根据该事件对业务的影响情况,选择推荐的应对方式提前修复系统事件,或者等待执行默认应对动作。对于ECS主动修复系统故障触发的系统事件,ECS根据系统维护操作计划安排提前一段时间向您发送事件通知。
以下为用户操作窗口期的时长说明:
- 处于问询中(Inquiring)状态的事件,没有时长限制。
- 系统维护相关事件通常为24~48小时。
- 包年包月实例即将到期而停止的事件为3天。
- 账号欠费而停止的事件小于1小时。
- 因计费原因引发的系统事件,实例会被立刻停止,并在15天后被释放。
- 突发故障或者违规操作等非技术因素导致的非预期系统事件,通常不存在用户操作窗口期。
- 事件执行窗口期:系统事件被响应到执行完毕的时间段,事件执行后您会收到系统事件的执行结果。
以下为事件执行窗口期的时长说明:
- 修复故障类系统事件通常在10分钟内完成。
- 突发故障或者违规操作等非技术因素导致的非预期系统事件,只有短暂的执行窗口期。