今日の朝、お客様から悲痛な声で電話がありました。『システムが動きません!どうすればよいのでしょうか(?)』
去年の夏に立ち上げたとある生産工場のシステムです。
情報システム屋がもっとも嫌う電話です。
電話にて状況を確認すると…システム全てが使えないことがわかりました。
端末はもちろん、工場の製造設備制御システムも全てダウンしています。
どうやら現象から想定すると、工場全体のデータを管理するサーバーがおかしい模様です。
しかし、サーバーはダウンに備えて多重化され、まったく同じ処理をCPUクロック単位で同期した2台のサーバーで動いており、2台同時にダウンしたとは考えにくいのです…
普通なら遠方保守回線でウチの会社と直結しているので、会社に居ながら状況を正確に把握できるのですが、ココのお客様はセキュリティが厳しく対外接続を認めてもらえないので、電話越しの会話で故障部位を特定するしかありません。
こんなときは、110番の指令台で電話を受ける気分です。
相手は焦り、言っている事はツジツマが合わず…
そこを冷静に質問して必要な情報を聞き出します。
そして判断を狂わせたのが、つい一週間前にサーバーの片系が部品故障によりダウンしたこと。
この時はもう片方のサーバーが正常に処理を続け、業務停止には至りませんでしたが、今日は『この時の修理が完全ではなかったのではないのか(?)』と考えてしまいます。
とにかく考えうる部品を複数選定し、現場近くのハードウェア保守部隊に出動を指示。自分たちソフトウェア部隊も現場に向かいます。
こんなときは、どんなに早く現場に着いても『遅いよ~!!(怒)早く復旧しろ!!』と怒鳴られること必至です。
現場に向かう自動車内でも、常に携帯電話にて会話を続け最新状況を入手します。
やがて、システムに詳しい人が現場に到着し、正確な情報が入り始めました…
ん…!?
どうやら状況から制御ネットワークの挙動がおかしいのです…!
ピビッと直感!で電話越しに『電気室内の右側の盤の中にあるハブの電源を一度切り、再投入してください!』と指示しました。
ようやく故障部位特定完了!
工場の最上位のハブが全ての接続を認識しておらずランプが真っ暗との報告があり、ただちに代替品に交換し復旧したのでした。
ネットワーク関連設備はお客様の設計・工事で、機器はお客様手配のもので、我々は完全にシロ。
そしてシステム復旧後のバタバタ(設備復旧やデータツジツマ合わせ等の作業)が落ち着いた頃に現場到着なのでした。
我々はまったくオトガメ無し。
そのまま操業完了まで立ち会いました。ふぅ~、疲れました…。