大規模な障害を知り自組織でできる対策を考える

2021年だけでもAWSやFacebookなど、GAFAに含まれる超大手企業の大規模障害が数回発生しています。これらはご自身の商売や業務とは全く関係のない、他人事なのでしょうか。もちろん影響のない軽微な障害も多くあるでしょう。一方で何らかの関連のある場合、ご自身で提供しているサービスも同時に停止する可能性があります。もし止まったら、他社の復旧をひたすら待つことしか方法は無いのでしょうか。この記事では障害とその事例について概要を知り、自組織としてできる対策をまとめています。

大規模障害の概要と原因を知る

障害はその数だけ理由があり、慣れているはずの企業も起こしています。影響力のある国際的なIT企業ですら、情報セキュリティの「可用性」を維持できないことがあります。2021年だけでも以下のような規模の大きい障害がありました。この章ではそれぞれの概要と原因をまとめています。

AWS（Amazon Web Services）の場合

2021年2月

障害の時間帯	2月19日23時50分～2月20日5時30分頃（日本時間）
概要	AWS東京リージョンで、EC2およびEBSのサービスが停止
原因	・サーバーの冷却システムへの電力供給が正しく行われず、サーバールームの一部で温度が上昇しサーバーが停止
主な影響範囲	・気象庁の公式サイト・仮想通貨取引所・一部オンラインゲーム

2021年9月

障害の時間帯	9月2日7時30分～9月2日13時42分頃（日本時間）
概要	北東アジア太平洋地域（AP-NORTHEAST-1）に接続するためのデバイスに問題発生
原因	・ネットワークデバイスに導入された新しいプロトコル・特定の条件が揃ったときに問題を引き起こす欠陥（上記のプロトコルを無効化で解消）
主な影響範囲	・羽田空港（チェックインを行うシステム）・航空会社（貨物の情報に関するシステム）・大手銀行アプリ・ネット証券のWebサイト・金融系のサービス（auPayなど）・気象庁の公式サイト

Facebookの場合

障害の時間帯	10月5日0時40分～10月5日8時頃（日本時間）
概要	Facebook全社を接続するネットワークでシステムの保守時に、コマンドの操作によって意図しないネットワークの停止
原因	・データセンター間のネットワークを調整する機器の設定変更・ネットワークの中断が連鎖的に他に影響を与え、サービス全体が停止
主な影響範囲	Facebook、Instagram、Facebook Messenger、WhatsApp、Oculusのサービス停止

Fastly（CDNサービス）の場合

障害の時間帯	6月8日19時17分～6月8日21時頃（日本時間）
概要	米Fastly（ファストリー）が提供するCDNサービスに障害があり、このサービスを利用している世界中で多くのWebサイトへアクセスが不可になった
原因	・もともとソフトウェア内にあったバグが、利用者が行った設定変更により表面化し、障害へとつながる
主な影響範囲	FastlyのCDNサービスを利用している以下のWebサイト・米国や英国など政府、報道機関のWebサイト・日本では政府や報道機関のほか、メルカリ、note、TVerなどのWebサイト

CDNには重要な役割がある一方、想定外の弱さを抱えていることがわかります。

カゴヤのサーバー研究室ではCDNについて、わかりやすく解説しています。

【入門】CDNとは？仕組みやメリットを図入りで分かりやすく

CDNは、Webサイトの表示やコンテンツ配信の高速化を担うネットワークです。動画などの大容量コンテンツを配信する場合やアクセスが集中した状況でも、Webコンテンツの表示と配信をスムーズに行います。ここではCDNの意味や仕組み、メリット・デメリット、料金体系を分かりやすく解説します。 CDNとは CDNとは「Contents Delivery Network」の略で、Webコンテンツを迅速に、効…

自組織にとり有効な対策を考える

いったん大規模障害が発生すると、その原因がいかに一大事であったとしても、サービスの利用者にとってはただ使えないことに変わりはありません。そのためさまざまなサービスを利用して商売をする事業者にとって、決して他人事ではありません。

そうは言っても、やみくもに何かを買って設置するだけで安心というわけではありません。まずは焦ることなく、リスクマネジメントの手順で順番に分析し対処することが重要と考えます。周囲にしかるべき専門家も多くいます。自組織にとって、より適切な手段を選択していきましょう。

概要

情報システムでのリスクマネジメントの手法が、わかりやすく効果があると考えています。おおまかな流れは以下の通りです。

「リスクアセスメント」（リスクの特定、分析、評価）の実施
国際規格をもとに「リスク対応」する手順の作成
対策計画を立案
対策するための具体的な手段（サービス）を選択し導入

詳細は、下記のカゴヤのサーバー研究室の記事にて詳しく解説をしています。

情報システムのリスクマネジメントとは？対策事例をご紹介します

なぜ情報システムの「リスク」を、「マネジメント」しなければならないのでしょうか。この「リスク」の範囲は広く、誰も免れることはできません。だからこそバランス良く効率的で負担の少ない方法を、着実に実施し続ける「マネジメント」が必要です。綿密な調査だけでなく、解決する目標を自ら決めて実行することが何よりも大切です。想定する「リスク」によりどのような解消事例があるのか、あわせてご紹介します。情報システム…

これらの流れを参考にして調査や分析、対策案の決定、そして手段の選択に絞り、以下のように整理しました。

調査と分析

対象が膨大なため自組織にとっての優先順位をつけ、有限な作業時間と費用の範囲内で実施することが現実的です。考慮すべき点は以下と考えます。

利用する外部のサービスにおいて、自組織の事業運営にどのようなリスクがあるか
そのリスクが発生したら、自組織の利用客にどのような損失などの影響があるか
そのリスクが発生する頻度は高いか
いつまでに対策をしておかなければならないか
代替方法は何か

数ある調査方法の一つに監査ログの仕組みがあります。対象の動作が、あらかじめ決めていたように動いているのか確認できます。監査ログとそのシステムについて、カゴヤのサーバー研究室では以下の記事で概要をまとめています。

監査ログとは？理解すればこんなに安心！

組織の情報システム担当者は、その稼働中に問題があれば、収集した情報をもとに分析し対処しています。その際に確認する情報が、ログ（記録）といわれるファイルです。ログには多くの種類があります。「監査ログ」の目的や仕組みは何でしょうか。セキュリティ対策を効率的に進める手段としても活用できます。監査ログとは？ログ（記録）とは？パソコンやサーバーなどを操作すると、操作した内容が記録として残ります。例えば…

さらに、以下のようなリアルタイムの情報の入手も必要になるでしょう。