ITシステムを管理・運用するうえで、システム障害を避けて通ることはできません。私たちの仕事や生活がITシステムに強く依存している現代では、システム障害が発生した際の影響はどんどん大きくなっています。
その一方、システム障害対応については体系化されておらず、現場の経験頼りの暗黙知になっていることが多いようです。きちんとした教育が行われないまま障害対応の最前線に放り込まれ、「背中を見て学ぶ」スタイルで経験を積むことが繰り返されてきました。
しかしながら、システム障害対応にも多くの学ぶべき基本やノウハウが存在します。
障害対応の目的を共有する
何より大切なのは、システム障害対応の目的を明確にし、対応チームや関係者が同じ認識・判断基準に基づいて行動することです。何のためにシステム障害対応を行うのか、という根本の認識がバラバラだと、不要な範囲まで調査・復旧対象を広げてしまったり、逆にやるべきことを見逃してしまったりといったトラブルに繋がります。
旗振り役(リーダー)を決める
「インシデントコマンダー」「コントローラー」などと呼ばれますが、障害対応の現場をまとめ、各担当者に指示を与える現場リーダーを決める必要があります。障害対応チームの全員が作業担当者として調査・復旧作業にあたってしまうと、必要な作業の漏れ、作業の重複、関係各所への連絡の不備といった多くの問題が生じます。作業担当者とは別に、インシデントコマンダーを任命すべきです。
インシデントコマンダーは、障害対応の現場全体を見渡し、多くの情報を取りまとめ、作業担当者に適切な指示を与えます。また、窓口役として関係者との連絡・報告を一手に担うことで、作業担当者の負荷を減らします。
各自の役割と基本動作を明確にする
作業担当の役割は何か、インシデントコマンダーの役割は何かを理解しておきましょう。また、原因調査、影響調査、復旧対応といった作業を行う際に、何を目的にして何をするべきか明確にするのも大切です。これにより、個々の作業はもちろんのこと、チームメンバーや外部関係者との連携も円滑に進むようになります。
平時の事前準備や教育をおろそかにしない
障害対応に必要なドキュメントが整備されていないと、現場は混乱します。障害対応の全体フローはどのようなものか、緊急時には誰に連絡すれば良いのか、対応の優先度は何を基準に決めるのかなど、障害対応の現場で使われるドキュメントは平時にきちんと整備しておきましょう。ドキュメントを常に最新の状態に保つことも重要なポイントです。
また、障害対応の目的、各自の役割や基本動作、全体フローなどを平時の障害対応訓練やレクチャーなどを通じて教育し、周知徹底する必要があります。
技術評論社が刊行する『システム障害対応の教科書』は、システム障害対応時の基本動作や現場マネジメントのノウハウを解説した書籍です。障害対応のプロセス・基本動作・ドキュメント・ツールについて体系的にまとめるとともに、システム障害に強い組織作りや教育についても取り上げています。本書を利用すれば、緊急のシステム障害時に適切な対応ができるようになり、組織の障害対応力向上にも繋がります。