2020年も残りわずかとなってきておりますが、振り替えるとシステム障害に関するニュースが多く見受けられました。直近のものを挙げると、「Google」「楽天ペイ」などが挙げられます。これらの障害が発生し復旧するに至るまで、Googleでは「約1時間」、楽天ペイでは「約10時間」も要しております。

実は、システムが1分ダウンするごとに被る損失は、平均「約80万円」と言われており、単純計算でGoogleでは4800万円を、楽天ペイでは4億8000万円の損失を被っていることになります。

障害により、システムが停止した場合、1分間にかかるコストは約80万円

このようにシステム障害が多発している状況において、システム障害を未然に防ぐ努力はもちろん大事ですが、システム障害が発生した後、迅速に対処できる準備をすることも重要となっています。

そこで、今回は「運用の自動化」をテーマに話を進めます。

監視だけでなく、運用の自動化も

サーバーで稼働するアプリケーション、またはユーザー企業などで開発したオリジナルのアプリケーションに関しては、実際に開発に携わった部門や担当者、運用に携わる部門や担当者の間で細かなノウハウが「伝承」されていくことが多いのではないでしょうか。

あるプロセスが障害を起こす、いわゆる「落ちた」時には、このミドルウェアを立ち上げなおす、こちらのプロセスが止まった場合には、OSから再起動する…。アプリケーションがサービスインしてからの経験の蓄積が、運用部門に脈々と受け継がれていきます。

サーバー監視、ネットワーク監視の監視ソフトなどで定量的、機械的に監視をしていたとしても、障害発生後は運用部門の人手で対処することは多いのではないでしょうか?

そこで監視ソフトを通し、運用業務を自動化する方法についてご紹介します。

監視の自動化(運用の自動化)について

運用部門がとらえる自動化として、大きくは本番環境のアップデートなどの「変更作業の自動化」、障害対応などの「緊急作業の自動化」の2パターンに大別されます。

変更作業の自動化については、監視ソフトとは異なる領域となりますが、基本的な考えは、緊急作業の自動化と共通となり、ワークフローと呼ばれる手順を設定していきます。

監視対象機器の登録の自動化

クラウド環境の普及によりシステムの運用効率は格段に進歩しています。サーバー、ネットワーク機器、監視ソフトや監視システムもすべて仮想化された環境も珍しくはありません。

ただ、効率化の進展とともに、運用部門は徐々に人員が削減されている現象も発生しています。クラウドによってサーバーを簡単にセットアップできるようになった半面、人員配置の見直しによってチューニングに手間を避けなくなっている場合には、監視対象の機器を自動で登録する機能をもった監視ソフトを導入することもひとつの解決策です。

テンプレートで監視開始を自動化

単純な死活監視であれば、監視対象機器を登録することで監視が開始できることが多いのですが、よりOSやアプリケーション、ネットワーク機器に適したサービス監視などは、あらかじめ運用部門で決めておいた監視メニューを使ったり、監視ソフトがもっている監視メニューを使ったりすることで、監視の開始までを自動化することも可能です。

ワークフロー

監視対象のサーバーや、ネットワーク機器の情報をもとに、あるイベントが発生したり、ある値を上回ったり下回ったりする値が検知された場合などに、どのような操作を行うか、ひとつひとつ設定したものをワークフローといいます。

リモートコマンド

ウェブサービスの再起動、データベースサービスの再起動など、実際にサーバーやネットワーク機器に操作を行う場合には、監視ソフトからのリモートコマンドを許可する必要があります。この時に、エージェントレスと呼ばれる、監視対象に特別なソフトウェアをインストールしない手法と、エージェントと呼ばれるソフトウェアをインストールする手法があります。

上記のように、監視ソフトによってある程度の自動化は可能になりますが、やはり限界があります。そこで幅広くIT運用業務の自動化を可能にするのが、IT運用自動化プラットフォーム「ロボシュタイン」です。

ロボシュタインとは

ロボシュタインとは、IT運用業務の自動化・効率化を「カンタン」に実現する「IT運用自動化プラットフォーム」です。
主な機能としては、メール受信やSSH接続、コマンド実行などの自動化処理ブロック(ノード)を組み合わせ、ツール同士をつなぎ合わせることで、システム運用を自動化します。

ロボシュタイン特徴

▼フローエディター(自動化構築機能)

システム障害に対し迅速に対処するために、システム運用の自動化を行う方法

自動化処理ブロック(ノード)には、大まかに「トリガー系」「中間処理系」「出力処理系」の三種類に分かれており、これらのノードをつなぎ合わせるだけで、「カンタン」に自動化フローを作成でき、運用・管理を行うことができます。

▼受信メールの件名、本文の内容に応じて担当者に電話、メール、Slackなどで通知を行うフロー

システム障害に対し迅速に対処するために、システム運用の自動化を行う方法

上記のフローでは、トリガー系のノードである「メール受信」を起点としています。その起点から中間処理系のノードの「件目で振り分け」や「本文で振り分け」など、もともと人が判断して振り分けていたものを自動で振り分けます。内容によって振り分けられたメールは、その内容に応じ、対応を出力系のノードである「Slack送信」や「自動電話通報」で自動化しています。

つまり「メール受信」をトリガー系のノード(起点)として、そこから中間処理系で「振り分け」、最後に出力系で「通知」を行っているフローチャートです。

▼ダッシュボード機能

システム障害に対し迅速に対処するために、システム運用の自動化を行う方法

ダッシュボード機能は、削減効果や効果率などの費用対効果を「自動」で計算してくれるため、手間・労力をかけずに費用対効果を可視化することができます。

ロボシュタインなら
幅広い運用業務の自動化に対応できます。

ロボシュタイン詳細資料はこちらから

本ブログでは、業務の自動化について幅広く取り扱っております。

是非、ご覧ください。

テック・スクエア:

関連記事