« NW-Aシリーズの凶兆は既に英国で出ていた? | トップページ | テニス愛好家にハッキングされた町田市のサーバ »

2005.11.22

最終報告:東証システム障害を検証

東証と名証の原因、ITProに詳しい説明記事が掲載されましたが、
なんかもう判らないといいますか…。実際に富士通汎用機を触ってきた私すら「結局何が悪いのか?」の核心が掴めません。
名証の事件だって最初はパスワードがどうこうと報道されていたのに、下の記事では一変し、オラクルをリネームして動けなくしてしまった、と?どうしてこうもクルクル変わるのだろうか。私はUNIXではNECのEWSやUPでオラクル使ってましたが、リネームでexport運用って世間常識なのだろうか…。
2005年11月18日 名証システム障害、原因は外注先オペレータの“操作ミス”
(富士通製UNIXサーバー&Oracle)
2005年11月18日 東証ダウン、真の原因はプログラムの破損
ひとつだけ判ったのは、原因は人為的ミスであり、マシンやアプリの仕様や性能のせいではないってらしいこと。
性能の問題なら同じアーキテクチャの全世界のマシンが故障のリスクを負うことになり、他のシステムも緊急点検する必要が出てきます。(まぁ運用も我が身振り直す必要はあります)
結局『破損』のところがわからない。記事でも「おいそれと不具合が出るツールでない」というぐらいなのだから。
オラクルや汎用機に詳しい記者さんにレポートして欲しいですね。
上記記事でも読者コメントではツッコミ多数でしたし。


■関連で新聞記事でのレポート

このサイトはすぐ記事が消えるのでメモ。
日経産業新聞の記事のデジタル。これが原因の最終的解説となるのでしょうか。
結局ここでも「コンデンスやデフラグでなぜインデックスがこわれるのか?Windowsでデフラグしたらファイルの中身が壊れるものなのか?」の私の疑問は解消できず。
元リンク: 日経ナビ:日経の就活・キャリア情報サイト.

情報処理・ソフトウェア
「東証システム障害を検証、1つの「バグ」から始まった。」
  東京証券取引所で十一月一日に発生した売買システムの障害は十日、社外役員を除く全役員の減俸処分という処分で一応の決着をみた。前場と後場の途中まで、三時間にわたって全二千四百銘柄の取引ができなくなるという、前代未聞の大規模トラブルはどのように起きたのか。不完全なプログラムがシステムに搭載されて障害が発生した経緯を振り返る。
10月8日―10日
発端
システム拡張を前倒し
別ソフトに問題
 東証一部市場は九月、二十営業日のうち十九日の売買高が二十億株を超える大商いに沸いた。ネット証券各社は増え続ける注文件数に対処するため、基幹システムの処理能力を相次いで増強。東証も先を見越して処理できる注文件数を引き上げるため、売買システムの拡張を前倒しで行うことにした。
 十月八日土曜日、証券会社からの注文を処理する売買システムを止めて、注文データを保存する記録装置の設定を変更。一日あたりに処理できる注文を六百二十万件から七百五十万件に引き上げる作業を行った。
 翌九日には試験用のデータを使って模擬的に大量の注文を発生させるテストを実施。売買システムが計算通り、一日七百五十万件の負荷に耐えられるかどうかを確かめた。
 このときソフトウエアに一つの欠陥(バグ)が見つかる。東証の売買システムには、起動時にデータベースから証券会社の識別コードを読み込んで、売買注文や取り消し注文の受付結果を証券会社に通知するためのプログラムがある。バグは、注文件数が増えるとその機能が停止してしまう危険なものだった。
 八日のシステム増強作業がこのバグの原因だったわけではない。東証によると、「少なくとも前回に売買システムの増強を実施した今年五月から存在していた」(天野富夫常務)。バグがあったままでも、一日の注文件数が六百万件を超えなければ異常は出ない。このため最大でも一日五百五十万件程度だった今年十月まで、発覚しなかった。
 東証はただちに、売買システムの開発と保守を担当する富士通に注文受付の通知用プログラムの修正を依頼した。東証に常駐している富士通のシステム技術者は即座に作業にとりかかった。修正したプログラムは十日夜までには動作検証を終え、問題なく動作することが確認された。
10月13日
誤処理
プログラムに「空白」
富士通の指示書に不備
 一般にバグなどを修正したプログラムは、他のプログラムに予想外の影響を及ぼす可能性がある。そのため修正直後はいったんハードディスク内の別領域に保存し、他のプログラムとは隔離する。この「仮登録」の状態でしばらく使って動作の安定性が確認できると、他のプログラムと同じ格納領域に移して「本登録」する。
 東証もこの手順通り、修正した注文受付の通知用プログラムを十月十一、十二日の間は、売買システムの特定領域に仮登録して使用した。二日間、他のプログラムに異常がなかったことから、本登録に移行することにした。
 本登録に当たり、東証は富士通に作業手順をまとめた指示書の作成を依頼した。実際の作業は、東証の基幹系システム全般の運用を手がける東証コンピュータシステム(TCS)が担当。十三日、TCSのシステム技術者が富士通の指示書の通りに作業を進めた。
 ところが、富士通が作成した指示書そのものに不備があった。本来なら修正したプログラムを本登録する時に、「エイリアス」(別名や仮称の意)と呼ぶ別のプログラムに、修正したプログラムの名称などを書き込む必要がある。指示書は、その作業項目が完全に抜け落ちていた。
 エイリアスとは、パソコンで言えば、デスクトップ画面に配置された「ショートカット・アイコン」のようなものだ。エイリアスを使えば、それに対応したプログラム本体が起動するだけでなく、検索・読み込みといった複数の命令を一度に実行できる。
 コンピューターはエイリアスに書き込まれた情報を基に、どのエイリアスがどのプログラムに対応するかを一覧にした索引リストをつくる。その索引リストを参照してプログラム本体を特定し、実行する仕組みだ。だが本登録されたプログラムに対応するエイリアスは、索引リストの基になる肝心のプログラム名が「空白」のままだった。
10月31日
秒読み
偶然の連動断ち切る
 本登録が終わった翌日の十月十四日朝。東証の売買システムは通常通り、起動時にデータベースから証券会社の識別コードを読み込み、正常に動き始めた。エイリアスに不備があったにもかかわらず障害が起きなかったのは、コンピューター内の古い索引リストがまだ生きていたからだ。
 このリストでは、問題のエイリアスはまだ注文受付の通知用プログラムと結びついた状態。コンピューターは以後もそのリストを参照して、通知用プログラムを一見問題なく実行し続けた。
 だが月末の三十一日、時限装置が秒読みを始める。
 東証は毎月末、売買システムに格納してあるプログラムやデータの整理を自動的に実行している。パソコンでは「デフラグ」と呼ぶ処理に当たる。プログラムやデータを何度も登録したり更新したりしていくと、ハードディスクの空き場所にとびとびに記録されたり、使えない無駄なすき間ができたりする。これを整理し直し、システムの動作を安定させるのが目的だ。
 このときコンピューターは一つ一つのエイリアスを自動的に読み取って、どの本体プログラムと結びついているかを確認する。それを基に、各エイリアスに対応したプログラムがハードディスク上のどこにあるかを記した索引リストを最新の内容に作り直す。
 問題のエイリアスは、どのプログラムに対応するかを示す情報が欠落していた。コンピューターは索引リストを更新する過程で、それまで偶然にもつながっていたエイリアスとプログラムを「無関係」と判断して、両者の結びつきを断ち切ってしまった。
11月1日
売買停止
途中で動作不能
残る甘えの構造
 十一月一日午前六時三十分、東証は普段通り売買システムを起動した。売買システムは複数のプログラムを次々に実行して、注文処理に必要な機能やデータをシステムに登録。そして六時四十七分、問題のエイリアスが作動したとき、約三週間潜んでいた障害が起こった。
 エイリアスと注文受付の通知用プログラムとの結び付きが分からないコンピューターは、ハードディスクのプログラム格納領域の中から実行すべきプログラムを見つけ出せない。その結果、証券会社の識別コードを読み込む処理ができず、システムは起動途中で動作不能に陥った。
 すぐに障害時のバックアップシステムが起動を始めたが、それも失敗に終わった。本番用のシステムとまったく同じプログラムを搭載しているから当然だった。
 東証は七時四十六分に証券各社に障害の発生を連絡し、八時四十分には売買の停止を正式に通知。障害発生直後から原因究明にあたったが、復旧のメドが立たないまま十時十五分に午前の取引停止を決定した。
 原因が判明したのは十二時ごろ。富士通のシステム技術者が注文受付の通知用プログラムを正しく実行できるように、エイリアスを手作業で修正してシステムを再起動、十二時五十五分に障害が復旧した。
 東証は一日から七日までに四度の記者会見を開き、現状と原因を説明した。五回目の会見となった十日には鶴島琢夫社長を筆頭に九人の役員報酬を最大六カ月五〇%カットする処分を発表。再発防止とシステムの安定稼働に向けて開発と運用の体制を見直すことを決めた。富士通も同日、黒川博昭社長などの減俸処分を実施すると発表した。
 もっとも、これで問題が片づいたわけではない。〇二年にみずほ銀行で大規模トラブルが発生したにもかかわらず、「プログラムにはバグがつきもの」というIT(情報技術)業界の態度は変わらない。東証の鶴島社長も七日の会見で「相当綿密なテストをしてもバグは残る」といった趣旨のコメントをした。
 この甘えを断たない限りいくら体制を見直しても意味はない。今回の障害を教訓に、バグや作業ミスを一つでも減らしていく地道な取り組みが求められる。
(栗原雅)
東証システム障害の主な経緯  
10月8−10日  売買システムの一日あたりの注文処理件数を620万件から750万件に増強
          注文受付の通知用プログラムのバグが見つかり緊急修整  
     13日  修整したプログラムを売買システムに登録する作業中、同プログラムを実行するための簡易プログラムの設定を誤る
     31日  売買システムの月次処理によって、注文受付の通知用プログラムと簡易プログラムの連動が無効となる
11月1日午前6時30分  通常通り売買システムの立ち上げを開始
     午前6時47分  システムが異常を検知、障害が発生
     午前8時40分  証券会社に売買を停止すると正式に通知
     午前9時45分  与謝野馨経済財政・金融相が会見で遺憾の意を表明
    午後12時55分  システムが復旧、午後1時30分に取引を開始すると発表
              金融庁が東証に、15日までに障害の原因や再発防止策の報告を要求
          夕方  インド出張中の鶴島琢夫東証社長が帰国の途に
      2日午後7時  鶴島社長が謝罪会見
      4日      鶴島社長が金融庁に出向き与謝野経財・金融相に謝罪
      7日午後4時  会見で障害の原因を公表、富士通が作成した資料に不備があったことが判明
  10日午後4時30分  会見で鶴島社長ら役員9人の減俸処分を発表
          夕方  富士通が黒川博昭社長と担当役員を減俸処分にする方針を表明
[11月14日/日経産業新聞]

|

« NW-Aシリーズの凶兆は既に英国で出ていた? | トップページ | テニス愛好家にハッキングされた町田市のサーバ »

IT・汎用機」カテゴリの記事

トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/3180/7169882

この記事へのトラックバック一覧です: 最終報告:東証システム障害を検証:

« NW-Aシリーズの凶兆は既に英国で出ていた? | トップページ | テニス愛好家にハッキングされた町田市のサーバ »