企業などで稼働するサーバーやネットワーク機器について、ハードウェア的なトラブルであったり、アプリケーションのバージョンアップなどのミドルウェア的なトラブルであったりは、比較的、広く話題にあがりやすい傾向があると感じます。
しかし、そのサーバーなどで稼働するアプリケーション、特にユーザー企業などで開発したオリジナルのアプリケーションに関しては、実際に開発に携わった部門や担当者、運用に携わる部門や担当者の間で細かなノウハウが「伝承」されていくことが多いのではないでしょうか。
あるプロセスが障害を起こす、いわゆる「落ちた」時には、このミドルウェアを立ち上げなおす、こちらのプロセスが止まった場合には、OSから再起動する…。アプリケーションがサービスインしてからの経験の蓄積が、運用部門に脈々と受け継がれていく。
サーバー監視、ネットワーク監視の監視ソフトなどで定量的、機械的に監視をしていたとしても、障害発生後は運用部門の人手、つまり「運用でカバー」となるケースはまだまだ多いのではないでしょうか。
ただ、このあたりはお国柄も影響しており、自動化に対して社会のウケが良いアメリカなどでは、飛行機の操縦も自動化、自動車の運転も自動化と積極的に自動化が推進されており、当然、ITシステムの障害対応も自動化の流れがスタンダードとなりつつあります。
そのため、欧米などで開発販売されていたり、シェアが高い監視ソフトについては、障害対応の自動化の機能が搭載されていることも多く、日本の運用現場でも頻繁に見かけるようになってきた印象があります。
今回は監視ソフトによるサーバー監視、ネットワーク監視と、自動化について見ていきましょう。
目次
監視の自動化(運用の自動化)について
運用部門がとらえる自動化として、大きくは「本番環境のアップデート」などの変更作業の自動化、「障害対応」などの緊急作業の自動化の2パターンに大別されます。
変更作業の自動化については、監視ソフトとは異なる領域となりますが、基本的な考えは、緊急作業の自動化と共通となり、ワークフローと呼ばれる手順を設定していきます。
監視対象機器の登録の自動化
クラウド環境の普及によりシステムの運用効率は格段に進歩しています。サーバー、ネットワーク機器、監視ソフトや監視システムもすべて仮想化された環境も珍しくはありません。
ただ、効率化の進展とともに、運用部門は徐々に人員が削減されている現象も発生しています。クラウドによってサーバーを簡単にセットアップできるようになった半面、人員配置の見直しによってチューニングに手間を避けなくなっている場合には、監視対象の機器を自動で登録する機能をもった監視ソフトを導入することもひとつの解決策です。
テンプレートで監視開始を自動化
単純な死活監視であれば、監視対象機器を登録することで監視が開始できることが多いのですが、よりOSやアプリケーション、ネットワーク機器に適したサービス監視などは、あらかじめ運用部門で決めておいた監視メニューを使ったり、監視ソフトがもっている監視メニューを使ったりすることで、監視の開始までを自動化することも可能です。
ワークフロー
監視対象のサーバーや、ネットワーク機器の情報をもとに、あるイベントが発生したり、ある値を上回ったり下回ったりする値が検知された場合などに、どのような操作を行うか、ひとつひとつ設定したものをワークフローといいます。
リモートコマンド
ウェブサービスの再起動、データベースサービスの再起動など、実際にサーバーやネットワーク機器に操作を行う場合には、監視ソフトからのリモートコマンドを許可する必要があります。この時に、エージェントレスと呼ばれる、監視対象に特別なソフトウェアをインストールしない手法と、エージェントと呼ばれるソフトウェアをインストールする手法があります。
《 会社の規模別監視システム 2−2:可用性を高める冗長化構成
シリーズ一覧
[catlist tags=”会社の規模別監視システム” orderby=title order=asc numberposts=-1]