
Mordor Intelligenceによると、IT運用のための人工知能(AIOps)市場は、2020年の135億ドルから2026年には400億ドル以上に成長すると予想されています。この急成長は、継続的な可用性、つまり企業の重要なアプリやサービスが常に稼働し、良好なパフォーマンスを維持することの重要性が高まっていることを示しています。
高可用性の実現は、もはやビジネスにおける絶対的な必須事項となっています。SlackやFacebookのサービスがダウンするとどうなるか、ぜひ考えてみてください。ダウンタイムは、企業の収益損失(時には1時間あたり数百万ドルにも上る)や社内業務の停止、そして顧客ロイヤルティの低下につながる可能性があります。
可用性の維持は重要ですが、複雑で分散化されたITエコシステムにおいてサービス停止を回避することも非常に困難です。つまり、適切なツールがなければ困難です。
ここでAIOpsの戦略的な活用が役立ちます。次世代AIOpsソリューションは、DevOpsチームとサイト信頼性エンジニアリング(SRE)チームが、インシデントライフサイクルの早い段階で潜在的な問題を検知し、ビジネスに影響を与える前にサービス信頼性を向上させるのに役立ちます。また、適切に実装されたツールは、対応すべき担当者を特定し、適切な対応方針を決定するためのコンテキストを提供し、パターンを認識して問題の再発を防ぐことで、インシデント対応を効率化します。
AIOpsは、ダウンタイムの短縮と事業継続性の向上を保証することで、現代の企業にとって欠かせないソリューションとして急速に普及しつつあります。しかし、大きな注意点があります。それは、成功は良質なデータにかかっているということです。
参照:アナリティクス:ビッグデータサイエンスをビジネス戦略に変える(無料PDF)(TechRepublic)
ゴミを入れればゴミが出る
AIOpsの成功と失敗の違いは、ツールの設定と実装にあります。AIOpsソリューションを購入し、データを投入すれば魔法のように機能すると考える人もいます。しかし現実は、技術チームがAIOpsソリューション、そしてあらゆるAI駆動型テクノロジーを統合的に運用することで、ビジネス成果を成功に導く必要があるのです。
AIOpsプロバイダーが、ツール導入前に顧客のAIOps戦略策定を支援することで、最良の結果が得られるケースが一般的です。何が問題なのか?予算はいくらなのか?このテクノロジーで、目の前の課題をどのように解決できるのか?
多くの場合、AIOpsベンダーは、クライアントが特定の問題を解決するためのテクノロジーのオーケストレーションを支援します。技術チームが良質なデータと不良なデータの違いを理解し、適切なデータを選択し、期待値を設定するのを支援することもあります。
AIOps を適切に実装すれば、DevOps チームと SRE チームは自信を持ってインシデントを解決できるようになり、より価値の高いタスクに時間を割くことができます。実装がうまくいかない場合は、「garbage in, garbage out(ゴミを入れればゴミが出る)」という古い格言の真意を人々が理解することになるでしょう。
どれくらいのデータが必要ですか?
AIを活用した成功は、多くの場合、企業全体にわたる数十億ドル規模のプロジェクトとビッグデータと結び付けられます。しかし現実には、現代の企業のほとんどは、AIOps導入のメリットを享受するために大量のデータを生み出しています。また、企業自体が特に大規模である必要もありません。AIOpsツールが質の高いデータにアクセスできる限り、必要なデータ量はごくわずかです。
例えば、私がこれまでお手伝いした中で最も活発なAIOps導入事例の一つは、技術チームも非常に小規模です。念のため申し上げますが、このお客様は最新のDevOpsプラクティスを適用し、可能な限りあらゆる手作業を自動化することで労力を削減し、IT部門のスリム化を実現しています。その結果、完全に実装されたAIOpsソリューションは、舞台裏で多くの重労働を担い、驚異的な成功を収めています。
参照:2022年のベストウェブサイト監視ツールとサービス(TechRepublic)
どうすればより良いデータを取得できますか?
GoogleのSREハンドブックでは、データ品質を向上させる方法と、監視において最も重要なデータが説明されています。その基本原則は「シンプルさを保つ」です。データが増えると混乱と複雑さが増し、問題を引き起こします。
Google は、アプリやサービスのパフォーマンスを監視するために、「ゴールデン シグナル」と呼ばれる 4 つの特定の消費者向け指標を使用しています。
- レイテンシ: 成功したリクエストと失敗したリクエストを処理するのにかかる時間
- トラフィック: ネットワーク全体の総需要
- エラー: 失敗したリクエストの数
- 飽和:サービスとネットワークへの負荷
Googleのゴールデンシグナルは一部の企業には有効かもしれませんが、すべての企業にとって最適なソリューションではありません。結局のところ、AIOpsは幅広いITユースケースに対応できるのです。
企業は、利用可能なすべてのデータを特定の問題に投じるのではなく、自社独自のゴールデンシグナルを見つけ出す必要があります。企業の課題は何でしょうか?それらの課題を測定できる指標は何でしょうか?
しかし、それは単なるシグナル(SRE用語ではサービスレベル指標)に過ぎません。何が起こったかは分かりますが、なぜ起こったのかは分かりません。一般的に、データ収集はゴールデンシグナルのみに限定すべきであり、それ以外はノイズに過ぎないと言われています。これは問題の特定という点では確かにその通りですが、他のテレメトリはコンテキストや問題発生の原因に関する洞察を提供する可能性があります。ここでAIOpsが役立ちます。コンテキストテレメトリとゴールデンシグナルをクラスタリングすることで、チケットやページングの量を増やすことなく、迅速に因果関係を特定できます。
次に、データがクリーンで完全かつ構造化されていることを確認する必要があります。空のデータストリームでは、AIOpsツールは機械学習(ML)機能を適用できません。同様に重要なのは、コンピューターは一貫性のある構造化されたデータを好むということです。実際、MLは一貫性のある特徴、つまり本質的に独立変数に基づいてモデルを作成し、正確な予測を行います。
メリットは何ですか?
AIOpsツールにターゲットを絞った、クリーンで構造化されたデータを提供することで、広範なメリットがもたらされます。実質的に、データサイエンティストを社内に抱えることなく、企業のデータサイエンスを実行できるのです。このツールは、サイロ化されたテクノロジースタック全体からデータを取り込み、正規化すると同時に、人工知能(AI)と機械学習(ML)がこれらの情報を分析してシステムの正常な動作を判断します。その後、このソリューションはデータを整理し、DevOpsチームとSREチームが単一の中央エンゲージメントシステムから本番環境スタック全体を360度で把握できるようにします。
AIOpsソリューションはイベントノイズを低減し、問題の解決に重要なアラートのみを分離します。さらに、データを自動的にエンリッチすることで、表示されるアラートに詳細なコンテキストを提供します。このコンテキストは、DevOpsチームとSREチームが、業務に支障をきたすインシデントを迅速に把握し、解決するのに役立ちます。
十分なデータを備えた堅牢なAIOpsツールは、根本原因分析にもアルゴリズム的なアプローチを採用しています。根本原因分析により、DevOpsチームとSREチームはトラブルシューティングをどこから開始すべきかを即座に把握し、インシデントチケットをオープンするとすぐに問題を診断できます。詳細な診断により、チームはインシデント対応を迅速化できるだけでなく、おそらくさらに重要なのは、これらの根本原因を修正して運用モデルを改善できることです。
企業がイノベーションを加速させるにつれ、消費者や社内チームは、これらの革新的なアプリやサービスがシームレスに機能することを期待しています。そして、AIOpsは可用性の向上を推進する最新のテクノロジーです。そのメリットは計り知れませんが、その実現の鍵はデータにあります。

Moogsoftのチーフエバンジェリストであるリチャード・ホワイトヘッドは、変革をもたらすソリューションの構築に何が必要かを鋭い感覚で捉えています。元CTO兼テクノロジー担当副社長であるリチャードは、新技術を市場に投入し、戦略、パートナーシップ、製品研究を担当しました。SplunkのシリーズA期間中、テクノロジー諮問委員会に所属し、製品および市場に関するガイダンスを提供しました。RedSealとMeriton Networksの諮問委員会にも参加し、TMF NGOSSアーキテクチャ委員会の創設メンバー、DMTFワーキンググループの議長、そして最近ではONUGモニタリング&オブザーバビリティワーキンググループの共同議長を務めました。リチャードは3件の特許を保有しており、JavaScriptの知識は危険視されています。