先日のANAの大規模システム障害は、DBサーバーをつなぐスイッチの故障が原因だったようだ。
ANAシステム障害の原因判明、シスコ製スイッチの「世界初のバグ」でDBサーバーがダウン (2016.3.30 ITPro)
この記事を読んで、サラリーマン時代に同じような経験をしたことを思い出した。
ただ、規模は小規模だったが。
休日のある日の昼間、会社から電話がかかってきた。
当時、わたしはシステム部門で働くサラリーマンだった。
休日にシステムダウン
電話はサーバー室の管理者からで、電話の内容は、
「コンピュータシステムの処理がエラーを起こして異常終了したから、内容を確認してほしい」
というものだった。
要するに、
「お前が運用担当のシステムがバグってるかもしれないから、プログラムを修正して再実行しろ」
という意味だった。
「休日出勤かよ」
と心のなかで思って、出社した。
タクシーで。
会社に到着して誰もいないオフィスで自分の端末を起動した。
エラーを起こした処理の結果を調査して原因を究明しようとした。
しかし、原因がよくわからない。
部品故障
見たことがないエラーメッセージだった。
どうも、ソフトウェアのエラーではなさそうだ。
わたしが出社して1時間くらいで、サーバー室の管理者から「ハードウェアの部品が故障している」という報告があった。
どうやら、サーバーのある部品が故障したためにソフトウェアの処理が異常終了したようだ。
たまたま故障した時間に稼働していたのが、わたしが運用を担当しているシステムだった。
システムがダウンした原因は「運が悪かった」から?
ハードウェアの故障だからどうしようもない。
「形ある物はいつかは壊れる」
サーバーの管理者がメーカーに連絡して、部品が到着するのを待った。
部品交換後に処理を再実行して無事終了。
たまたま部品が故障したのが休日だったから、ユーザーにばれることがなかった迷惑をかけずにすんだ。