NTT東日本のフレッツで障害発生

2007年5月15日午後6時44分頃から東京・神奈川・千葉・埼玉を除くNTT東日本エリアにて、一部の利用者の「フレッツサービス」および「ひかり電話」が利用できない状態になっています。原因は調査中で、回復の目処はたっていません。NTT東日本は午後8時に『「フレッツサービス」および「ひかり電話」のご利用できない状況について』という文章を発表しました。
NTT東日本が午後9時に公表した『「フレッツサービス」および「ひかり電話」のご利用できない状況について(第2報)』によるとサービスが利用できなくなっているのは次の通りです。原因は依然として不明で、回復の目処も立っていません。導入間もないこともあり、従来の交換機を用いた電話に比べIP電話は障害が多いようですが、あまり何度も障害が起きると困りものですね。

NTT東日本からのお願い
現在、「フレッツサービス」および「ひかり電話(緊急機関への通話を含みます)」がご利用できない状態ですので、報道機関の皆様におかれましては、テロップやアナウンス等を通じた告知にご協力をお願いいたします。

掲示板などを見るとPPPoEで認証エラーが発生しているようで、回線を切らなければ通信は維持されるようです。また、午後9時30分頃から復旧しだしたようです。本当かどうか知りませんが、片っ端からリブートかけているとか。
その後、午後10時30分現在の第3報で、『弊社ビル内にある「フレッツサービス」および「ひかり電話」用のIP伝送装置の送受信部分をリセット(再立上げ)することで、サービスが回復することが判明したことから、現在、順次行なっています。』という内容が掲載されました。…本当にリブートかけてた。
午後11時30分現在の第4報では、ビジネスイーサを利用したひかり電話には影響がなかったことを明らかにし、翌未明の1時には全面回復する見込みだと明らかにしました。
翌2007年5月16日0時30分現在の第5報では、サービス回復後にひかり電話対応機器の電源をoff/onするようお願いしています。
その後、1時00分現在の第6報で復旧状況が報じられ、1時35分現在の第7報で全面回復を報じました。9時30分現在の第8報で障害発生の原因と今後の対策について次のように報じました。

原因
IP伝送装置(弊社ビル内に設置しているルータ)のハード故障に伴うパッケージ交換により、弊社IPネットワーク内の全IP伝送装置で、ルート情報の自動書き換えが行われますが、この際、処理可能な量を超えるルート情報が発生したため、連鎖的に多くのIP伝送装置において、処理能力オーバーとなり、IPパケットの転送処理を自律停止したものです。
今後の対応
当面の緊急措置として、安定運用が図れるようにルート情報の数を減らす処置を実施いたしました。併せてルート情報の自動書き換えを含む処理能力向上のため、IP伝送装置のソフトウェア変更を早急に実施していくこととします。

…今までルータの故障が一度もなかったのでしょうかね?それとも今までの交換では、たまたま問題が発生しなかったと言うことでしょうか。
なお、2007年5月16日午前7時現在で問い合わせ数は約13,000件に上ったと言うことです。最終的に影響を受けたのは、東京都(23区除く)、北海道、青森県岩手県宮城県秋田県山形県福島県茨城県、栃木県、群馬県新潟県山梨県、長野県の14都道県で契約数は次の通り。

報道によれば、フレッツ回線でこれほどの障害が出たのは初めてだと言うことです。



2007年5月16日にNTT東日本は記者会見を行い、問題の説明を行いました。NTT東日本の地域IP網では4000台のルータが運用されており約1万5000ものルーティング情報が設定されているそうです。今回1台のルータに障害が発生しパッケージ交換を行ったところ(これは日常的に行われている業務だそうです)交換したルータが持っている80のルーティング情報を他の4000台のルータに自動的に設定するようになっているそうなのですが、一部のルータで負荷に耐えきれず問題が発生したそうです。すると、新たに問題が発生したルータのルーティング情報を自動的に設定することになり、また他のルータで問題が発生し…という連鎖が起きて、最終的に最初の問題発生から3秒で2000台のルータが機能を停止するに至ったと言うことです。(東京都内などを担当していた残りの2000台は単に能力が高かったから機能を停止しなかったとのこと。)
逆に言えば、2台のルータがいっぺんに駄目になったらNTT東日本の地域IP網は持たないってこと?ルーティング情報を減らして負荷を軽くするなどの対策を取ると言うことなのですが、大丈夫なのだろうか?