Gmail障害インシデントレポート(2011年2月27日からの障害)

2011年3月18日
Posted by 相村崇(DSK Google Enterprise Sales)



先月2/27より、Gmailの一部のユーザー様に障害が発生致しました。

この障害は、個人のGmailユーザーだけでなく、一部のGoogle Appsユーザー様にも影響のある障害となりました。
ご迷惑をおかけしたユーザー様には、あらためましてお詫び致します。

Google Appsのお客様にも影響があった事もあり、今回の障害について、Google Appsユーザー企業向けに、インシデントレポートが発行されておりますので、御案内させて頂きます。(英文となります)
www.google.com/appsstatus/ir/nfed4uv2f8xby99.pdf


今回のような障害については、当然ながら発生すべきでは無いことは、重々理解はしております。
しかしながら、メールのロストが発生していない(復旧出来ている)事やその復旧までの時間など、多くのお客様から、Google Appsのクラウド環境の可用性について、ご評価を頂きました。

今後も”止まらない”サービスを提供できるように、弊社もGoogleと一体となり、サービス/サポート提供を行っていく所存ですので、何卒宜しくお願い致します。

また、インシデントレポートにつきまして、参考和訳を記載致します。
ご参考までに御覧下さい。





------------------------------------------------------------------------------------
Google Apps Incident Report
Gmail Outage - February 27, 2011
Prepared for Google Apps for Business customers


以下は、2011年2月27日から発生した、非常にわずかな Google Apps お客様に発生した Gmail 問題の、インシデントレポートです。
その影響を受けたユーザーは、 Gmail と他の Google Apps サービスにおいて、メールボックスが空になっているか、ログイン出来ないことを報告しました。
問題を解決するために、Google のエンジニアは影響を受けるユーザのためにアカウント・データとユーザーアクセスを回復しました。
この問題の間、いくつかの受信メールが自動的にバウンスされました(送付者は配信障害通知を受け取りました)。
ユーザーのメールボックスからのメールのロストはありません。

私たちは、このサービスの停止は、大切なお客様とそのユーザーに影響を与えたことを理解しています。また、心からお詫び申し上げます。



[問題の分析と対応]
注意:全ての日時は太平洋標準時で記載されています。
2月27日午前10時頃 Google Support は最初の報告を受けました。
1) メールボックスが空になり、テーマやラベルなどの個人設定が初期状態に戻っていた。
または
2) Gmailアカウントが一時的に利用できないという、500系のエラー状態が表示される。

問題を分析した後に、Google エンジニアは、根本的原因が Gmail ストレージソフトウェアアップデートで想定されなかったバグであることを確認しました。
バグによって、影響を受けるユーザーのメッセージとアカウント設定はデータセンターから一時的に利用できなくなりました。
Google エンジニアは2月27日午後1時5分に、ストレージソフトウェアアップデートを中止し、更なる展開を停止しました。


【復旧プロセス】
問題とその根本的原因を分析している間、Google エンジニアは、ユーザーのアカウントを回復するためのプロセスも実施していました。
2月27日午後6時に、Google エンジニアは 影響の有ったユーザーの Gmail と他の Google Apps サービスへのアクセスを一時的に無効にしました。
これは、メールボックス回復プロセスの間にデータ保全の問題を防ぐ予防策でした。
ユーザーがGmailやGoogle Apps サービスにログインすると、「すみません、あなたのアカウントは無効にされています」と表示されました。
2月28日午後1時30分に、さらに分析を続け、Google エンジニアはソフトウェアのバグで影響を受けないユーザーを特定し、そのアカウントへのアクセスを回復しました。
影響を受けるユーザーのために、Google エンジニアは Gmail 以外の すべてのGoogle Apps サービスへのアクセスを回復しました。
Gmailは複数のユーザーのメッセージのコピーを、複数のデータセンターとテープバックアップで保存します。
このソフトウェア問題で、いくつかのメッセージが、オンラインで利用できなくなり、オフラインテープバックアップからの復元を必要としました。
Google エンジニアはテープバックアップからユーザのデータを検索し、データをメールボックスの中に移動、データの復元を検証、全ての受信メッセージキューを配信、そして、ログインアクセスを再有効化しました。
テープバックアップからユーザーのデータを取得して復元するため、長時間が必要になりました。
さらに、回復時間はユーザーのメールボックスのサイズに依存しました(ユーザーのメールボックスのサイズが大きいほど、復旧時間はより長くかかりました)
この間、Google Apps Directory Sync や Google Apps Provisioning API(Google Apps管理者によって利用されたユーティリティ)によるプログラムに基づくユーザアカウントの更新は、復旧のための追加時間を必要としました。

この出来事の間、既存のメッセージも Gmail 設定もユーザーのアカウントから失われませんでした。
しかしながら、2月27日午後6時から2月28日午後2時の間で、新たにメールを受信できず、送信者は「配送状態通知(失敗)」のバウンス通知を受け取りました。
この期間の後は、通常通りメッセージは配信され、かつてのユーザーログインが有効となりました。

Google エンジニアは、データの整合性を確保しつつ、可能な限りより早く影響のあるユーザーアカウントへのアクセス回復するために、熱心に対応しました。
3月2日午後3時40分までには、GmailデータとログインアクセスはGoogle Apps for Business ユーザーの98%に回復されました。
Google エンジニアとGoogle Supportは、残りのユーザーに対して対応し、そして、3月3日午前11時30分までには、Google Apps for Business の全てのユーザーの復旧が終了しました。


【問題の伝達】
この出来事の間、Google Support は定期的なアップデートを Apps Status Dashboard に掲示しました。
2月28日、Google エンジニアは、Gmail blog postで問題の原因の説明をリリースし、アカウントの回復プロセスの情報と、ユーザーのための、いくつかの残りの問題を報告するための電子メールアドレスを記載しました。


【調整と再発防止策】
Google エンジニア および Support は、内部レビューと分析を行い、問題の根本的な原因に対処するため、再発を防止するために以下のアクションを開始しています。
●テストツールの機能を拡張し、ソフトウェア開発サイクルの間、このクラスのバグをより特定しやすくする
●アラートとモニターを実装し、より早くこのタイプの問題を検出し、伝播を停止するようにする
●影響を受けるユーザーとユーザーアカウントの無効化と再有効化のために、自動化ツールのパフォーマンスを向上させて利用することにより、メール回復プロセスを早くする
●Gmail サービスの中断中、 ユーザーがGoogle Apps サービスへアクセスできるツールを開発する
●サポートコミュニケーションを改良する: お客様が大規模なサービスの中断やサポート停止に関するケースを Google Enterprise Support に提出すると、自動的にメールかオンラインで状態/解決のアップデートを受けることができるようにする


私たちはこれらの改良に専念し、そのすべてが現在、進行しています。
私たちはこの問題がお客様に影響を与え、失望させたことを理解しています。
Googleは、サービスの中断を防ぐために、継続的かつ迅速に技術と業務プロセスの改善に取り組んでいます。

--------------------------------------------------------