2013年03月01日
平素よりドリーム・トレイン・インターネットをご利用いただきありがとうございます。
1月31日に発生したDTI Cloud Mailの障害の経緯と、今後の対応策につきご報告いたします。
障害によりサービスがご利用いただけなかったお客様におかれましては、ご不便、ご迷惑をおかけいたしましたことを深くお詫び申し上げます。
■障害発生の経緯
2013年1月31日(木)
14:03 ネットワーク・オペレーション・センターにてアラームを検知。
調査ならびに復旧作業を開始。
15:07 障害発生箇所をストレージ用の物理ネットワーク機器と判断。
17:30 本来のパフォーマンスで動作していない機器があることが判明。
当該機器の切り離しに着手。
18:25 本来のパフォーマンスで動作していない機器の、ネットワークから
の切り離しが完了。順次サービスが利用可能となる。
2013年2月 1日(金)
00:48 すべてのメールアドレスで新しいメールの受信が可能になる。
それまで蓄積していた1月31日14:03以降に届いたメールの配送を
順次開始。配送完了見込みは、2月1日(金)07:00と想定。
09:44 配送完了見込みを2月1日(金)13:00 と修正。
16:20 日中、メールサービスの利用者が増加するのに伴いサーバーの
処理速度が低下。配送完了見込みを2月2日(土)14:00 と再修正。
23:30 特定サーバーについて、新着メールの配送を優先するため
メールボックスを新たなサーバーに設置。
2013年2月 2日(土)
14:00 ほぼすべてのメールの配送が完了。
上記特定サーバーについて、これまでのメールを新しい
メールボックスに付け込む作業を実施。
■障害原因
障害の起因は、ネットワーク機器群のうちの約1割の機器が本来のパフォーマンスで動作しなくなり、その影響で連鎖的にネットワーク機器全体のパフォーマンスが低下したことによります。これに伴い、データ保護のためにストレージへの書き込みがロックされ、ロックを解除するためにサーバの再起動が必要となったため、長期間の障害となりました。
ストレージ用ネットワークは冗長構成となっておりましたが、故障した機器が停止には至らなかったため、自動的な切り替えがされず障害が発生し、また、原因の特定まで時間がかかりました。
■障害が長期化した原因
障害が長期化した原因は、大きく2つあげられます。
1、機器の故障が、通常では考えられない状態を引き起こした
受け取った情報を約20%だけをとりこぼすという、通常では考えにくい
状況が発生したため、障害箇所の発見まで時間がかかってしまった。
2、一部サーバーの再起動に時間がかかったこと
メールの利用状況により再起動の際の負荷が大きく異なり、
一部のサーバーで、起動までに時間がかかってしまった。
■再発防止、並びに障害の長期化防止に向けた取り組み
下記4つの対策を行い、再発防止、障害長期化防止に取り組みます。
1、ネットワーク機器の全交換
今回の障害をうけ、本来のパフォーマンスを発揮できなくなった機器と
同種の機器の使用を止め、異なるメーカーの新たな機器での運用に移行
します。
2、メールボックスの利用状況に応じたメールボックスの分散管理
これまでの、収容アカウント数に基づく分散管理に加え、時間ごとの
利用状況まで加味したメールボックスの分散管理を行います。
3、ネットワーク構成全体の再検討
クラウド環境での完全無停止運用を実現する構成を改めて検討します。
あるべきシステムの形の検討、実現に向けたロードマップの検討、実装、
ロードマップの更新を継続的に行っていきます。
4、品質向上責任部署の新設
上記2~3の実施をより確実なものとするため、新たに常設の組織を
組成します。本組織は、既存サービスの安定稼働と品質の向上、
クラウド環境での完全無停止運用を実現するための専門組織となります。
定常的にリソースを品質向上に振り分けることで、確実に
サービス品質を向上させてまいります。
■補償について
この度は、長時間にわたりメールが確認できない状況となり、誠に申し訳ございませんでした。
今回の障害ではメール送信機能が維持されたため規約上の補償対象とはならないものの、メールの受信ならびに閲覧ができなかった状況に鑑み、Ubicプラン利用規約24条に従い補償を行います。この補償金額と同等の額を、インターネット接続サービスに付随するメールサービスをご利用のお客様に関しましても補償いたします。
Ubicプラン利用規約に基づく返金金額は、サービスをご利用いただけない時間が24時間を超えた場合に24時間ごとに6.6円となるところ、お詫びといたしまして、24時間を超えたお客様に10円、以降、48時間を超えたお客様に20円、と10円単位での金額を、ご請求金額から相殺させていただきます。
お客様によりメールがご確認いただけなかった時間が異なりますので、相殺金額につきましては、別途メールにてご案内させていただきます。
この度の障害では、皆様にご迷惑をおかけし、誠に申し訳ございませんでした。
再発防止、影響範囲の極小化に向け取り組んでまいりますので、引き続きDTIをどうぞよろしくお願い申し上げます。