もっと詳しく

Amazon Web Services(AWS)のデータセンターの1つで米国時間12月22日、今月3度目となる障害が発生。同社のUS-EAST-1リージョン(バージニア北部)で発生した停電により、Slack(スラック)、Asana(アサナ)、Epic Games(エピックゲームズ)などのサービスに影響が出た。

問題が発生したのは米国東部時間の午前7時30分頃で、午後1時(日本時間12月23日午前3時)現在もその影響は続いている。AWSでは、この地域の多くのサービス、特にEC2コンピューティングサービスと関連するネットワーク機能に問題が発生していると報告している。直近では、この地域のシングルサインオンサービスでもエラー率が上昇し始めていた。

同社は米国東部時間午前8時のアップデートでこう説明している。「US-EAST-1リージョンの1つのアベイラビリティーゾーン(USE1-AZ4)内の1つのデータセンターで停電が発生したことが確認されました。これにより、影響を受けたデータセンターの一部であるEC2インスタンスの可用性と接続性に影響が出ています。また、影響を受けているアベイラビリティーゾーン内の起動で、RunInstance APIのエラー率が上昇しています。影響を受けるアベイラビリティーゾーン内の他のデータセンター、またはUS-EAST-1リージョン内の他のアベイラビリティーゾーンへの接続性と電源は、この問題の影響を受けませんが、影響を受けているアベイラビリティーゾーン(USE1-AZ4)からフェイルオーバーできる場合は、そうすることをお勧めします」。

ここ数週間で発生したAWSの障害がこの1回だけだったら、ほとんど注目されなかっただろう。現代のハイパークラウドの複雑さを考えれば、障害は時々起こるものだと考えられる。しかし、AWSでは現在、毎週のように障害が発生している。12月7日には、同じUS-EAST-1リージョンがネットワークの問題で数時間にわたってダウンした。さらに12月17日には、西海岸の2つのリージョン間の接続に影響を与える障害が発生し、Netflix(ネットフリックス)、Slack、Amazon傘下のRing(リング)などのサービスが停止した。さらに、これらの障害は、12月初めに開催されたre:InventカンファレンスでAWSが自社のクラウドの回復力をアピールした直後に発生したものだ。

もちろん、理想的にはこれらの障害は起こらず、AWSユーザーは地理的に離れたリージョンにフェイルオーバーするようにシステムを構築することで、障害から身を守ることができれば一番だ。だが、それにはかなりのコストがかかるため、ダウンタイムとコストのトレードオフに見合う価値がないと判断する企業も多い。結局のところ、安定したプラットフォームを提供するのはAWSにかかっている。この会社が単に不運続きなのか、それとも何か組織的な問題があってこのような問題が発生しているのかはわからないが、もし私が今US-EAST-1リージョンでサービスをホスティングしていたら、少なくとも別の場所に移すことを検討するだろう。

画像クレジット:Noah Berger/Getty Images for Amazon Web Services / Getty Images

原文へ

(文:Frederic Lardinois、翻訳:Aya Nakazato)