AWS 도쿄 리전 장애 발생, 특정 AZ 일부 구역의 온도 상승이 원인
AWS 도쿄 리전(ap-northeast-1) 장애
2021년 2월 19일 오후 11시부터 20일 새벽까지 AWS 도쿄 리전에서 대규모 장애가 발생했습니다. AWS Status에는 일본어와 영어로 장애 상황이 업데이트 되었으며, 한국 시간 기준 20일 0시 9분부터 apne1-az1의 일부 EC2 인스턴스와 EBS 볼륨이 정상 동작하지 않은 것으로 보입니다.
후속 리포트에 따르면, 이는 az1 데이터 센터의 일부 구역 냉각장치가 정상 동작하지 않아서 발생한 문제로, 온도가 상승하면서 EBS 볼륨과 EC2 인스턴스가 중지되는 등의 장애가 발생하였습니다. 냉각 장치가 복구되면서 3시 30분부터는 정상 수준의 온도로 떨어졌으며, 4시부터 EC2 인스턴스 및 EBS 볼륨의 복구가 시작되었습니다. 5시 30분에는 대부분의 복구가 진행되었으며, 여전히 문제가 있는 경우 Personal Health Dashboard을 통해 알림을 전달하고 있다고 합니다. 즉시 문제를 해결해야하는 경우 EC2나 EBS의 경우 교체를 권고하고 있습니다. 2월 20일 12시 현재는 Status 보드 상에는 정상 상태로 표시되고 있습니다.
다음 내용은 한국 시간 5시 54분에 업데이트된 AWS Status의 메시지입니다.
Starting at 6:01 AM PST, we experienced an increase in ambient temperatures within a section of a single Availability Zone within the AP-NORTHEAST-1 Region. Starting at 6:03 AM PST, some EC2 instances were impaired and some EBS volumes experienced degraded performance as a result of the increase in temperature. The root cause was a loss of power to the cooling system within a section of the affected Availability Zone, which engineers worked to restore. By 10:30 AM PST, power had been restored to the majority of the units within the cooling system and temperatures were returning to normal levels. By 11:00 AM PST, EC2 instances and EBS volumes had begun to recover and by 12:30 PM PST, the vast majority of affected EC2 instances and EBS volumes were operating normally. A small number of remaining instances and volumes are hosted on hardware which was adversely affected by the event. We continue to work to recover all affected instances and volumes and have opened notifications for the remaining impacted customers via the Personal Health Dashboard. For immediate recovery, we recommend replacing any remaining affected instances or volumes, if possible.
이번 AWS 장애로 다수의 일본 서비스들과, 한국에서는 일본 리전을 사용중인 쿠키런:킹덤 등의 서비스가 영향을 받은 것으로 보입니다.