Gmail障害インシデントレポート(2013年4月17日の障害)

2013年4月23日 Posted by DSK Google Enterprise Sales 相村


Googleの一部のユーザー様環境下において、障害が発生しました。

ご迷惑をおかけしたユーザー様には、あらためてお詫びいたします。
(Gmail ユーザーは 0.18%以下)


今回の障害について、Google Appsユーザー企業向けにGoogleより、インシデントレポートが発行されておりますので、ご案内いたします(英文)。

また、インシデントレポートの参考和訳を下記に掲載いたします。


Googleのデータセンターは世界中で運営されており、今回の障害に関して、どこの場所で起きた問題か、把握することは出来ません。しかしながら、グローバルでのデータセンター運営をしていても、これだけの短時間での復旧が出来ていることに関して、多くのユーザー企業様より御評価頂きました。

※参考までに、公開されているデータセンターの場所は下記をご覧ください。
Data center locations

これからも弊社もGoogleと一体となり、営業ならびにサポートを行なって参りますので、今後ともどうぞよろしくお願いいたします。



   ◆      ◆      ◆      ◆      ◆  


【日本語訳】

Google Apps Incident Report
Access to Google Services ­ April 17, 2013
Prepared for Google Apps customers

Google Appsのインシデントレポート
2013年4月17日の Googleサービスへのアクセスについて
Google Appsのお客様へ

以下 2013 年 4 月 17 日に発生しました、Google のサービスへのアクセス中断の障害報告です。私たちは、
このサービスの問題が、私たちの大切なお客様やユーザー様に影響を与えたこと理解しており、影響を受け
られた皆様に深くお詫び申し上げます。

問題のまと め
4 月 17 日午後 9 時から 4 月 18 日午前 0 時(日本時間、米国時間午前 5 時から午前 8 時)、一部のユーザー
は、Gmail, Drive, Talk, Google Sync, 管理パネル, クラウド·コンソールにアクセスしようとした際にエラー
となり、更に少数のユーザーは、Groups, Sites, 連絡先にアクセスしようとした際、エラーとなりました。
機能停止のピーク時、管理者パネルの 50%と Google Sync のログイン要求の 60%に影響を与えました。他
のサービスにおきましては、影響を受けたユーザーの割合は低く、Gmail ユーザーは 0.18%以下でした。根
本的な原因は、Google サービスのログイン要求を管理するシステムの問題でした。


根本原因分析のアクショ ン
背景:ユーザーが自分のユーザー名とパスワードを使用して Google のサービスにログインする際、これら
のログインはユーザ認証システムによって管理されます。ユーザ認証システムは、Gmail や Drive などのサ
ービスへのユーザのアクセスを許可します。
4 月 17 日、このユーザ認証システムの設定ミスによって、ログイン要求が比較的少数のサーバーに集中し
ました。設定ミス当時、監視システムは負荷増加を検出し、4 月 17 日午後 6 時 8 分(日本時間、米国時間
午前 1 時 08 分午前)、グーグルエンジニアリング警告が発生しました。しかし、警報は解除され、ユーザー
認証システムは、当時の負荷条件の下で正常に動作しました。
4 月 17 日午後 10 時(日本時間、米国時間午前 5:00)、ログイントラフィックが増加するに連れ、誤って設
定されたサーバは、負荷を処理できませんでした。これは、Google のサービスにログインする一部のユー
ザーにエラーを引き起こすようになりました。IMAP クライアントなど自動化システムからのユーザーの要
求の再試行によって要求負荷が悪化し、最初にログインエラーの原因として発覚しました。4 月 17 日午後
10 時 48 分(日本時間、米国時間午前 5 時 48 分)、エンジニアリングチームは、根本的な原因は過剰なトラ
フィックによるキャパシティ不足ではないと判断しました。4 月 17 日午後 11 時 22 分(日本時間、米国時
間午前 6 時 22 分)、エンジニアリングチームは、ログイン要求を処理するために、より多くのサーバーをプ
ロビジョニングし、ユーザ認証システムのエラーを解決しました。4 月 17 日午後 11 時 30 分(日本時間、
米国時間午前 6 時 30 分)、最も影響を受けたユーザーは、自分のサービスへのログインアクセスができるよ
うになり、エラーの数は減少し続けました。4 月 18 日午前 1 時(日本時間、米国時間午前 8 時)、残りの影
響を受けたユーザーのログインアクセスが正常に戻りました。

是正及び予防措置
Google のエンジニアリングチームは、4 月 17 日の出来事の内部レビューと分析を行いました。エンジニア
リングチームは、問題の根本的な原因に対処し、再発を防ぐため、次のアクションを取っています:
負荷集中を引き起こしたユーザ認証システムの設定ミスを修正しました。これは完了しています。
●ユーザ認証システムの設定ミスに起因する、負荷集中に対する検出アラートを向上させます。
●システム構成の評価の監視を追加し、予想ピーク負荷に対するキャパシティの比較により、認証システム
は常に十分なキャパシティを有することを確実にします。
●負荷関連アラートへの応答のための、内部のエンジニアリングオンコールのドキュメントを向上させます
●負荷関連の停止を増幅しないよう、Gmail のような大規模サービスのリトライの動作を変更します。ーグルは、継続的かつ迅速に、当社の技術やサービスの中断を防ぐために、業務プロセスの改善に取り組
んでいます。お客様におかれましては、何卒ご理解をいただけますようよろしくお願いいたします。また、
お客様のビジネスに与えた影響を認識し、重ねてお詫び申し上げます。今後とも、ご協力の程よろしくお願
い申し上げます。


以上
The Google Apps Team




☆★☆ information ☆★☆

Google AppsGoogle検索アプライアンスおよびその他Google製品・サービスの導入やSIについて、スマートフォンやタブレット端末での利用を目的としたアプリ開発についてなど、ご質問やご相談などございましたら、お気軽にお問い合わせください。

●担当:DSK Google Enterprise Team