AWS CloudWatch 警报添加恢复操作

AWS CloudWatch 警报恢复介绍

参考:https://docs.aws.amazon.com/zh_cn/AmazonCloudWatch/latest/monitoring/UsingAlarmActions.html#AddingRecoverActions

您可以创建Amazon CloudWatch警报用于监控Amazon EC2实例,并且在实例受损(由于发生底层硬件故障或需要 AWS 参与才能修复的问题)时自动恢复实例。无法恢复终止的实例。恢复的实例与原始实例相同,包括实例 ID、私有 IP 地址、弹性 IP 地址以及所有实例元数据。

StatusCheckFailed_System警报触发且恢复操作启动时,您在创建警报及相关恢复操作时所选择的Amazon SNS主题将向您发出通知。在实例恢复过程中,实例将在重启时迁移,并且内存中的所有数据都将丢失。当该过程完成后,会向您已配置警报的 SNS 主题发布信息。任何订阅此 SNS 主题的用户都将收到一封电子邮件通知,其中包括恢复尝试的状态以及任何进一步的指示。您会注意到,实例在已恢复的实例上重启。

恢复操作仅适用于StatusCheckFailed_System,而不能用于StatusCheckFailed_Instance

导致系统状态检查出现故障的问题示例包括:

  • 网络连接丢失
  • 系统电源损耗
  • 物理主机上的软件问题
  • 物理主机上影响到网络连接状态的硬件问题

如果您的实例具有公有 IPv4 地址,它会在恢复后保留公有 IPv4 地址。

向 AWS CloudWatch 警报添加恢复操作

配置指标

CloudWatch -> 创建报警 -> EC2 -> 每个实例的指标 -> 选择实例 -> 选择一个指标(如StatusCheckFailedStatusCheckFailed_SystemStatusCheckFailed_Instance

配置条件

阈值类型:静态
报警条件:每当StatusCheckFailed_System大于阈值0

配置SNS通知

主题:如AWS_CloudWatch_StatusCheckFailed_System_AlarmsAWS_CloudWatch_StatusCheckFailed_Instance_Alarms
邮件:可用单邮箱,也可配置SES代收

配置EC2操作

  • StatusCheckFailed_System:恢复此实例(recover instance)
  • StatusCheckFailed_Instance:重启此实例(reboot instance)

配置名称

名称:service-biz-a-1-StatusCheckFailed_System_Alarm
描述:service-biz-a-1 系统状态检测异常报警

名称:service-biz-c-1-StatusCheckFailed_Instance_Alarm
描述:service-biz-c-1 实例状态检测异常报警

Powered by AppBlog.CN     浙ICP备14037229号

Copyright © 2012 - 2020 APP开发技术博客 All Rights Reserved.

访客数 : | 访问量 :