Coinbaseが5月の障害を検証:AWSの連鎖的障害で浮き彫りになったアーキテクチャ上のリスク
Coinbaseは、2026年5月7日に発生した大規模なサービス障害に関する事後検証レポートを公開しました。
障害は約8時間にわたり、完全復旧まで約12時間を要しました。この間、取引、入出金、およびほとんどの主要サービスが利用不可または著しく低下しました。Coinbaseによると、この障害はAWSのus-east-1リージョンにあるアベイラビリティーゾーン(use1-az4)のデータセンターで、冷却システムの冷却ユニットが同時に複数故障したことが原因です。これによりキャビネットの熱保護シャットダウンが作動し、EC2インスタンスとEBSボリュームがオフラインとなり、複数のインターネットサービスに影響が及びました。
復旧プロセスにおいて、Coinbaseの取引マッチングエンジンは、単一のAWSデータセンターに展開されていたクラスターアーキテクチャのノードの大半が失われたことで、クォーラム(定足数)を喪失しました。運用を再開するには緊急のコード調整と新しいノードグループの再構築が必要となり、復旧に合わせて段階的に市場取引を再開しました。
さらに、AWSマネージドKafka(MSK)サービスでコントロールプレーンの障害が発生し、パーティションリーダーの自動再選出が妨げられました。これにより、レート、手数料、および一部の決済・データフローシステムがさらに停止し、全体的な影響が拡大しました。
AWSエンジニアリングチームと協力して手動でパーティション移行を行った後、システムは徐々に正常な状態へ戻りました。Coinbaseは、このインシデントにより、アベイラビリティーゾーンをまたぐ自動切り替え機能と、マネージドミドルウェアの災害復旧における同社の不備が露呈したと述べています。同社は今後、クロスリージョンのホットバックアップアーキテクチャのアップグレード、定期的な障害訓練の強化、Kafkaシステムの2つのアベイラビリティーゾーンから3つのアベイラビリティーゾーンへの展開移行を行うとともに、AWSと連携して根本原因の修正と改善を推進する方針です。
