システム障害対応は、企業の安定した事業継続に欠かせない作業です。しかし開発担当者に任せきりで、自社の取り組みをよく理解していないという方も多いのではないでしょうか。

システム障害対応は何のために必要であり、具体的に何を行うのでしょうか。
本記事では、ITに詳しくない方にも分かりやすく解説します。

目次

システム障害対応の定義

システム障害対応とは、システム障害が発生した際に原因を調査し、復旧させるまでの業務全体を指します。

システム障害とは

システム障害とは、情報システムを構成する機材やソフトウェア、通信回線などに問題が発生し、正常な稼働を維持できなくなることを指します。(参考:e-Words

システム障害の主な要因は、内的要因外的要因に分けられます。

内的要因

内的要因とは、以下のように社内のシステム利用状況に起因するものを指します。
ソフトウェアのバグ:サーバー内のソフトウェアに、バグ(プログラムの欠陥)が存在する
ハードウェアの故障:長時間の利用により、熱を帯びたサーバーが故障する
人為的ミス:メンテナンス時に、管理者がサーバーの設定ミスを犯す

外的要因

外的要因とは、以下のように社内の状況を問わない外部からの影響を指します。
自然災害や停電:設備の負傷など、物理的な影響で機器が故障する
アクセス集中:想定以上にアクセスが集中した結果、サーバーがダウンする
サイバー攻撃:システム内に侵入したマルウェア(悪意のあるソフトウェア)の活動などを通して、外部からの攻撃を受ける

システム障害の深刻さと対策の必要性

システム障害は処理能力の低下やシステムの一部または全体の機能停止を引き起こし、サービスの提供が滞る、重要なデータが失われるなどの損害が生じます。

例えば2024年4月3日、江崎グリコでは基幹システムの切り替え作業時にトラブルが発生し、出荷データに不具合が生じました。これにより、同社の主力商品をはじめ、販売を請け負っていた他社の製品も出荷停止を余儀なくされました。(日経ビジネス電子版
出荷再開までは2ヶ月以上を要し、同社の経済的損失は甚大であると考えられます。

なお、システム障害は例外的な事例ではなく、どの企業でも起こり得る事象です。デジタルサービスが拡大する現在、その件数は増加しています。

PagerDuty株式会社が、国内企業のITリーダーおよび意思決定者300人に対して行った調査によると、2024年8月時点で、過去1年間で重大なシステム障害を経験しているとの回答が6割を超えたと言います。さらに、過去1年間で障害の発生数は平均37%増加しています。(参考:PagerDuty株式会社

このような損害を回避するため、各企業のシステム運用・保守を担う部署では以下のような対応を行っています。
・障害の発生を予防するための機器のメンテナンス
・発生した障害にいち早く気付くためのサーバー監視
・障害が発生した際の対処(システム障害対応

障害対応の具体的な流れ

ここでは、具体的なシステム障害対応の流れを説明します。

①初動対応

ユーザーからの苦情や、異常検知ツールからの通知(アラート)を受けた時は、まず障害の状況を確認します。障害の発生時刻と発生している事象、範囲や程度を確認したら、予め決めたルールに沿って関係部署に連絡(エスカレーション)します。障害の内容によって、エスカレーションを行う先は異なります。

初動対応は迅速に行う必要があるため、調査は要点のみに絞って行います。ただし情報の混乱を招くことがないよう、エスカレーションの際は正確で曖昧さを避けた伝え方を心掛けなければなりません。

②影響調査

障害によって社内やユーザーにどのような影響が生じるか調査し、影響の大きさや特性によって、優先すべき処置の判断につなげます。障害が発生したシステムに関連する、他のシステムへの影響がないかも調べます。

③原因調査

次に、障害の原因を分析します。障害が起きたシステムのログ(システムの活動を時系列で記録したもの)や監視データを参照して、原因の仮説を立てます。原因が特定できない場合は、過去の類似した障害をもとに再び仮説と検証を繰り返し、原因の究明を進めます。
仮説を立てる際は、メンバーが集まってホワイトボードを囲み、話し合う場合もあります。

④復旧対応(一次対応・恒久対応)

業務やサービスを継続するために、まずは一次対応(暫定的な対応)を取ります。応急処置として最低限の機能を復活させたり、代わりの機能を利用したりします。
作業は本番環境(実際にシステムが稼働している環境)で行うことになるため、慎重かつ迅速な対処が求められます。具体的には、複数人でのクロスチェックや、作業のバックアップを残しておく必要があります。これは、原因調査における検証も同様です。

原因を特定でき、一次対応が済んだら、システムの恒久的な復旧作業に入ります。この時、一次対応とは異なり作業計画や手順を定めてから作業に入ります。

⑤事後対応

復旧作業が済んだら、障害の分析を行い、関係者へ報告します。時系列順での障害の説明や、障害の原因、ユーザーや業務への影響、行った対応と再発防止策を報告書にまとめ、関係部署へ共有します。分析を行うことで、対応の過程で得た知見を今後の対応力向上につなげることができます。

…いかがでしたか?
私は初めて障害対応の手順を知った時、その難しさに驚きました。
障害の性質も原因も定かでない状態から、影響の大きさに応じてその都度適切な対応を考え、関係者への連絡や原因究明、復旧を並行して行います。

システム障害対応には、作業の迅速さと慎重さ、そして状況を総合的に捉えて優先すべきことを判断する力が求められます

難易度が高く、平時の備えも必要

システム障害対応を迅速に行うためには、担当者の豊富な経験と知識、そしてチームの信頼関係が欠かせないと言われています。
ある開発部の方は、ブログで「実際に障害対応を経験したことがあるか否かで、対応力に差が出る」と指摘しています。しかし障害はいつ起きるか分からず、同じ障害が繰り返し起きることはありません。担当者が個々の対応力を高めることは容易ではないと言います。

 

いつどんな障害が起きるか分からず、それゆえに対応が難しいシステム障害は、まさに自然災害のようです。対応をより迅速に行うためには、防災訓練のように、平時から準備を行うことが必要です。
具体的には、対応マニュアルの定期的な更新や、障害時に代替できる機器の準備障害の発生を想定して行う訓練などが有効でしょう。

 

障害対応における課題〜IT人材不足〜

これまで説明したように高度なスキルが求められる障害対応において、人材不足が課題となっています。

経済産業省が示したIT人材の供給に関する推計では、2019年を境にIT人材の減少が見込まれています。供給人数の推計とIT人材の需要を照らし合わせると、2030年には40~80万人の規模でIT人材が不足すると試算されています。

(引用元: 経済産業省 商務情報政策局 情報処理振興課

一方で、先に述べたようにシステム障害の事案は増加しています。
そこで近年、人材不足の課題を解決する方法として障害対応の「自動化」が注目されています

自動化のメリット

障害対応を自動化することで、以下のようなメリットがあります。

対応時間を短縮できる
人的ミスを削減し、担当者のスキルに関わらず作業の質を標準化できる
・自動化された業務の分、担当者がより高度な業務に取り組める(リソース割り当ての改善
・自動で記録することにより、障害や対応状況を可視化しやすくなる

このようにメリットが多い自動化ですが、障害対応の自動化を進める場合、複雑な全てのタスクを一度に自動化することは現実的ではありません。対応に時間がかかっていたり、より正確さや迅速さが求められたりする業務から、自動化を進めていくことが有効でしょう。

robosteinで障害一次対応を自動化

障害対応を自動化するツールとして、robosteinがあります。
ここでは、robosteinを用いた障害の一次対応を紹介します。

アラートメールの集約・振り分けを自動化

複数の監視ツールから発せられる大量のアラート通知を、これまでは手作業で分類していました。
一方、robosteinがアラートメールを集約し、対応が必要なものだけを自動で振り分けて通知することで、負担を軽減できます。さらに、緊急度の高い通知を見逃して対応が遅れてしまうことも防げます。

エスカレーションを自動化

これまでは担当者が24時間サービスの監視を行っており、エスカレーションをするにも夜間などで電話が繋がらない場合は他の人に連絡する、などと手間がかかっていました。対して、robosteinは監視もエスカレーションの電話も自動で行います。電話の応答がなければ次の担当者に電話を回す機能もあり、大幅に手間を削減できます。

先に、初動対応における迅速さと正確な伝達の重要性を指摘しました。robosteinで自動化を行えば、複雑な工数の中でのミスや遅れの発生を防ぐことができるでしょう。

運用自動化ならrobostein

robosteinは障害対応に限らず、あらゆる業務の自動化が可能です。加えて、次のような魅力があります。

・日本のシステム運用に合った純国産ツール
優れたUI(使いやすいデザイン)の管理画面
月額定額制で分かりやすい料金

セキュリティ分野に限らず、IT人材が不足している企業は多いでしょう。
自動化による業務の効率化に関心のある方、robosteinの魅力を詳しく知りたい方は、ぜひサービス資料をチェックしてみて下さい!

公式HPはこちら
サービス資料はこちら

関連記事