AIの成功には非構造化データの活用が不可欠

AIの成功には非構造化データの活用が不可欠
抽象的な幾何学的プラットフォーム上に AI 刻印されたストレージ キューブの 3D レンダリング。
画像: Shuo/Adobe Stock

最近、誰もが非構造化データについて話題にしています。ユーザードキュメントの形で存在する非構造化データは数十年前から存在していましたが、その量、種類、そしてそれを生成するアプリケーションの数(自動運転車、スマートカメラ、ゲノムシーケンサーなど)は近年爆発的に増加しており、特に生成型AIの時代においては、組織における最大かつ最も価値のあるデータソースとなっています。

最近のハーバード・ビジネス・レビューの記事の著者は次のように述べています。「企業のコンテンツの大部分は『非構造化データ』、つまり業務プロセスを通じて作成されるメール、契約書、フォーム、SharePointファイル、会議の記録などにあります。こうした独自のコンテンツによって、ジェネレーションAIはより独自性を高め、製品やサービスに関する知識を高め、幻覚を起こす可能性が低くなり、経済的価値をもたらす可能性が高まります。私たちがインタビューした最高データ責任者は、『CoPilotを導入するだけでは、投資収益率はあまり期待できない』と指摘しました。」

問題は、非構造化データが膨大で、通常、企業内、オンプレミス、クラウド内に散在するファイルやディレクトリに存在することです。検索や移動が困難で、HBRの著者が的確に指摘しているように、「多くの場合、品質が低く、古くなっていたり、重複していたり​​、不正確だったり、構造化が不十分だったりします」。また、非構造化データはマルチモーダルであり、画像、音声、テキスト、ドキュメント、医療用DICOMまたはVNA画像、BAMファイルなど、さまざまな形式が考えられます。

AIイニシアチブを成功させ、組織にとって意義あるものにするには、適切な非構造化データを適切なタイミングで入手する必要があります。ITインフラストラクチャおよび運用のリーダーは、あらゆる非構造化データに対するシンプルな可視性、高度なデータ分類とセグメンテーション、そしてAIデータの取り込みのための安全で高性能なデータモビリティを実現するよう努めるべきです。これは容易なことではありませんが、高額なコンサルタントを雇わなくても実現可能です。

AIのための適切な非構造化データ準備のメリット

すべてのファイルデータをクラウド上の安全なデータレイクにコピーし、データサイエンティストが必要に応じてプロジェクト用のデータを選択できるようにしてはいかがでしょうか?データレイクはスプレッドシートやParquetファイルなどの半構造化データでは依然として人気の高い選択肢ですが、数十億もの非構造化データファイルを闇雲にデータレイクに投入することは、AIには適していません。その理由は2つあります。

  • 検索が困難な扱いにくいデータの沼になってしまいます。
  • AI ワークフローの反復的な性質により、IT 部門はデータを別のプロセッサに移動する必要があり、データ レイクの有効性が低下します。

統一された構造がなければ、非構造化データのデータレイクから、ニーズに合った適切なデータを検索・発見することは不可能になります。同時に、ペタバイト規模のデータを保存するコストは急速に増大します。さらに、AI処理はエッジ、データセンター、クラウドで行われるため、各処理サイトにデータを移動する必要がある場合があります。これは冗長で、コストと時間がかかります。すべての非構造化データをデータレイクにコピーし、それを各AIプロセスに再度コピーする必要があるでしょうか?同じデータが複数のAIプロセッサに送信されたり、処理が完了した後も保持されたりすると、コストは倍増します。

問題は、プロジェクトに必要な量よりも多くのデータを、同時に実行される可能性のある複数のプロジェクトに送信したり、異なるユーザーが異なるタイミングで同じデータを同じプロセッサに送信したりすると、ほとんどの組織にとってAI処理コストが法外な額になってしまうことです。送信するデータが少なすぎると、結果は最適ではなく、不正確になることもあります。従業員が機密性の高い制限付きデータをAIプロジェクトに送信した場合、企業秘密への公開アクセス、コンプライアンス違反や訴訟の可能性に直面することになります。

これで、核心的な課題に戻ります。つまり、長時間の遅延や手作業なしで、AI プロジェクトに適切な量の高品質で関連性の高い非構造化データを提供するという課題です。

Komprise IT Survey:AI、データ、企業リスクにおいて、ITリーダーはAI向けの非構造化データの準備における最大の課題として、適切な非構造化データを迅速に見つけ出し、AIが稼働する場所に移動することが重要だと回答しました。また、データストア全体の可視性の欠如によるリスクの理解と特定、そしてデータのセグメント化と分類も課題として挙げられています。さらに、30%以上の企業が、データ管理とガバナンスのための適切な戦略について社内合意が得られていないと回答しています。企業のAIへの取り組みが初期段階にあることを考えると、これは驚くべきことではありません。

AIデータ準備に重点を置くべき場所

企業のIT組織は、AI向けデータ準備において、より容易で自動化された方法を模索しています。ファイルシステムによって自動生成されるメタデータは、データに有用なコンテキストや構造を付加するにはあまりにも基本的すぎます。数十億ものファイルを対象に、手作業による検索やメタデータのエンリッチメント/タグ付けを行ってデータを分類・整理することは現実的ではありません。AIデータ準備においては、以下の4つの重点分野を検討してください。

機密データの検出

IT部門の最重要業務は機密データの保護であり、調査対象者の大多数(74%)が、ワークフロー自動化ツールを用いて機密データを分類し、AIによる不適切な利用を防止したいと考えています。AIデータ準備における2番目に主要な戦術は、自動スキャンと分類によって非構造化データに必要な構造を与えることです。

データ分類

非構造化データ管理技術はまだ初期段階ではありますが、組織のデータ資産全体のファイル内容をスキャンし、ラベルを付与して識別し、必要に応じてデータをAIに取り込まれないように制限する自動分類機能が搭載され始めています。AIツールとの統合により、ファイルを解析し、キーワードを検索してキュレーションされたデータセットを作成することで、大規模なデータセットを迅速に分類することも可能です。

検索のためのメタデータ強化

非構造化データをタグ付け(メタデータエンリッチメントとも呼ばれます)によってさらに分類すると、ファイルデータの検索、セグメント化、保護、そしてAIプロジェクト向けのキュレーションが、より容易かつ迅速に行えます。研究者は非構造化データ管理ソリューションを使用することで、IT部門の支援なしに、キーワード検索を行い、分散ファイルシステム全体にわたる関連ファイルをすべて見つけることができます。調査では、メタデータエンリッチメントによるデータ分類において、データ管理とAIのアプローチに同等の関心が寄せられていることが示されました。

ラグ

調査回答者の60%によると、AI向けのデータ準備におけるもう一つの主要戦略は、セマンティック検索・検索拡張生成(RAG)用のベクターデータベースへのデータ保存です。ベクターデータベースを利用することで、組織はファイルデータを単なるキーワードではなく意味を捉える形式に変換できるため、検索エンジン、チャットボット、レコメンデーションシステムなどに役立つ戦略となっています。

適切な非構造化データをAIに取り込む

非構造化データのタグ付け、分類、セグメント化が完了したら、組織はデータをAIパイプラインへ効率的に移行させる方法を必要とします。大規模なデータセットのコピーは完了までに数週間かかる場合があり、特に数百万もの小さなファイルをWAN経由でクラウドAIサービスへ移行する必要がある場合は、データ損失やセキュリティリスクにつながる可能性があります。ITチームは通常、これらのタスクにデータの手動コピー、無料ツール、データ管理ツールなど、複数の方法を使用していますが、現在、調査回答者の64%が自動化されたデータ管理ソリューションを最も多く利用していると回答しています。

自動化された非構造化データワークフロー技術は、適切なガバナンスのもと、適切なデータをストレージからAIで使用するための場所へキュレーションし、移動するプロセスを効率化します。この技術は、ハイブリッドストレージ全体のデータのインデックス作成、機密データの識別と制限、そしてポリシーベースのデータセットの自動タグ付けを実行することで、ユーザーが必要なデータを正確に検索できるように支援します。

自動化されたワークフローでは、「MRI」、「神経膠腫」、「女性」のタグが付けられたデータを検索し、クラウドにコピーし、組織に新しいデータが入るたびにこのプロセスを繰り返すことができます。非構造化データワークフローソリューションには、進行中のワークフローを監視するダッシュボードが含まれており、IT部門は必要に応じて、特定のプロジェクトで使用されたデータセットとその使用者を調査できます。

シャドー AI が拡大し、商用 AI ツールへのデータ漏洩や誤った不正確な結果が生じているため、AI データ ガバナンス機能は今日では必須となっています。

ビジネスにおけるAIの非構造化データの義務化

多くのIT組織は、依然として指数関数的に増加する膨大な非構造化データを効率的に保管しようと努めていますが、コスト削減にとどまらず、AIエージェントやその他のGenAIイニシアチブにとってデータの価値を最大限に引き出すことが重要です。適切なデータを見つけ出し、測定可能なデータガバナンスを組み込んだ適切なAIツールに体系的にフィードすることは、2025年以降に向けたCIOの最重要課題です。「ゴミを入れればゴミが出る」という古い格言は、かつてないほどその意味を帯びています。

この記事は、さまざまな業界の大企業向けの非構造化データ管理に重点を置く企業である Komprise の COO 兼共同設立者である Krishna Subramanian によって執筆されました。

Tagged: