会社の規模別監視システム 2−2:可用性を高める冗長化構成

Security room in which working professionals. surveillance cameras in a flat style

企業のサーバー、ネットワークの可用性は、99.999%を目指すべきなのか

近年、企業活動と企業システム、とりわけサーバーやネットワークはより密接に関連しています。激しい企業間競争を生き残り、クライアントにより良い商品やサービスを提供するために、企業や組織のサーバー機器、ネットワーク機器が24時間365日確実に稼働していることが必要不可欠となっています。ECサービス、決済サービスから医療システムや物流システムまで、システムダウンが企業にとって大きな損失となる例も増加傾向にあります。

一方で、過剰なシステムへの投資、過剰なシステムへの要求は、適切なコストでのサーバー、ネットワークの維持管理という命題からは離れてしまう恐れがあります。一部のコストを度外視できるシステムを除けば、企業システムはコストパフォーマンスを常に念頭に維持運用・運用監視される必要があるのではないでしょうか?

サーバーやネットワーク機器には、回転するパーツ、発熱するパーツ、経年劣化が避けられえないパーツなど、故障の可能性を排除できない要素があります。また、電源のトラブル、ネットワークのトラブルなど、インフラ面でのトラブルはシステムの外部要因として、常に原因因子として存在します。したがって、万一の故障時に、交換機材を常時準備する、障害時に自動的に正常なサーバー、正常なネットワーク機器に切り替えるなどの冗長化構成が重要となります。

今回はサーバーやネットワーク機器の可用性を伸ばすポイントについて見ていきましょう。

可用性と冗長化構成

可用性(かようせい)とは、システムが継続して稼働できる能力のことを指します。可用性を数値として表現したものが稼働率(かどうりつ)となり、例えば、稼働率99.999%は、一年間で5分程度しかシステムが停止しない、非常に高い可用性を表しています。

可用性を高く保つためには、システムの一部に障害が発生した場合に備え、障害発生後でもシステム全体の機能を維持できるように予備機器をバックアップとして設置しておく冗長化構成をとり、それをきめ細かく監視することが求められます。

また、稼働率99.999%は企業システムにとって目標値とされることが多い数値ですが、やみくもに稼働率を追うのではなく、コストパフォーマンスとの両立も求められるでしょう。

死活監視

監視対象のサーバーや、ネットワーク機器の情報を収集し、システムの可用性や稼働を維持するための監視です。

具体的には「Ping監視」などを用いて、一定期間ごとにPingを送信し、応答が正常であるか、遅延が発生していないか、不安定でないかなどを確認します。

ポート監視

TCP/IPによるプロトコルをもとにサービスを提供するサーバーに対しては、「ポート監視」などを用いて、サービスが正常に稼働しているか、という観点から可用性の維持に努めます。

ウェブサーバー、データベースサーバーなどのアプリケーションや、ネットワークファイルシステムや時刻サービスなどのシステムレベルのサービスなどから、重要なものをピックアップして監視します。

ウェブサイト監視

ポート監視のうち、特にウェブサイトを監視することが重視される場合があります。企業システムのうち、ウェブサイトを通じてサービスを提供するサーバーの場合、ウェブサービス、データベースサービス、その経路上にあるネットワーク機器などがすべて正常に稼働してスムーズにサービスが提供されるといえます。

そのため、一連のサーバー、ネットワーク機器の可用性を一気通貫に監視する手段として、ウェブサイトの監視が行われることがあります。

ネットワーク機器のリンクアップ監視

ネットワーク機器の障害において、意外と多い原因がケーブルの断線や抜けなどによって物理的なリンクが切断されてしまうことです。そのため、ネットワーク機器のそれぞれの接続ポートの状態を監視し、正常にリンクアップされているかを「リンクアップ監視」で確認することは、可用性を高めていく第一歩となります。

サーバーのプロセス監視

サーバー上のプロセス可用性を監視することは、単にプロセスが稼働しているかどうか、といった観点だけではなく、異常なプロセスが発生していないか、プログラムの動作異常の検知、不正アクセスの検知など幅広い可用性のチェックに活かせる監視です。

サーバーがWindowsの場合は、「Windowsサービス監視」として、Windows上のサービスの稼働状態をチェックして、可用性の向上を図っていきます。

可用性の向上、次の一手

最近のシステム運用監視、特に可用性の維持の傾向として、サーバーの稼働、ネットワーク機器の稼働に加えて、データ破損対策、ITILの可用性管理プロセスの導入などがあげられます。

データ破損対策

データ破損とは、一般的にはディスクドライブにデータを書き込む際に、正しいデータが書き込まれないことを指します。データのコピーなど、データの冗長化も有効な対策手段となります。

ITILの可用性管理プロセスの導入

費用対効果やROIという観点から、バランスの取れている機器構成・冗長化構成・運用レベルになっているか、非可用性のコストを算出してより良いコストパフォーマンスを把握することが推奨されます。

可用性を高める冗長化構成なども含めて、サーバー、ネットワーク機器の24H365D稼働を支えるためにも、基本的な死活監視から応用的な監視を活用して、可用性監視の実現・可用性の維持向上を図っていくことが、管理者に求められています。

《 会社の規模別監視システム 2−1:ビッグデータには親サーバー、子サーバーを用意し、適切なサーバー監視を

会社の規模別監視システム 2−3:自動化を取り入れ業務の効率化を図る 》

 

シリーズ一覧

[catlist tags=”会社の規模別監視システム” orderby=title order=asc numberposts=-1]