高品質データ:生成AIモデルにデータを供給するレシピ

高品質データ:生成AIモデルにデータを供給するレシピ

生成AIモデルには高品質なデータが必要です。データを適切に準備することが、成功への最良の方法です。

デルテクノロジーズ
画像: デル

近所のパン屋さんが、大成功を収めているラテチェーン店の中で、なぜこれほどまでに存在感を保っているのか、考えたことはありますか?口の中でとろけるようなチョコチップクッキーや、外はカリッ、中はふんわりとした食感のパンといった完璧なレシピ以外にも、成功の秘訣を見つけているのかもしれません。

その公式は信条の形をとるかもしれません: 私たちは量より質を重視します。

きっとこの格言を聞いたことはあるでしょう。もしかしたら、口にしたことがあるかもしれません。根本的なレベルでは、それは完全に理にかなっています。多くの人は大量生産品よりも高品質な商品を好むのです。少なくとも、ほとんどの人はそうでしょう。

生成 AI の急速な発展により、第 4 次産業革命の起爆剤となると期待する声もある生成 AI の原動力となるデータに関しては、量と質の両方が重要です。

大規模でクリーンかつ多様なデータセットを活用することで、長期的に見て最適なGenAIソリューションを実現できます。また、GenAIモデルは、従来のAIモデルと同様に、優れた結果を生み出すために高品質なデータを必要とします。

ジャンプ先:

  • 量?OK!品質?うーん
  • データ準備プレイブック
  • 結論

量?OK!品質?うーん

GenAIモデルはデータに基づいてトレーニングされるため、当然のことながら、データの品質はモデルが生成できる出力に直接影響します。「ガベージイン、ガベージアウト」ですよね?この考え方は、組織のデータを使用してオンプレミスでGenAIモデルを構築・実行する際に重要です。

GenAIモデルを社内で運用することで、セキュリティとプライバシーを犠牲にすることなく、必要なパフォーマンスを実現できます。つまり、データを他者にオフロードするのではなく、AIを自社のデータに組み込むことになります。

このアプローチは、少なくとも理論上は、組織に共感を呼んでいます。Dell TechnologiesがIT意思決定者を対象に実施した社内調査によると、多くの企業がオンプレミスでのGenAIモデルの構築またはトレーニングに関心を示しています。その理由としては、パフォーマンス(55%)、コスト(35%)、AIモデルの制御(30%)、ガバナンス(30%)などが挙げられます。

実のところ、多くの企業は、サイロ化されたリポジトリに蓄積された膨大な量のビジネスデータ、プロセスデータ、運用データを活用しているため、データの量という点では不十分です。しかし、質という点では、そうではありません。

実際、IT部門がGenAIモデルを構築し、このテクノロジーを活用して有用なアプリケーションを開発できるようになるまでには、さらに多くの作業が必要です。では、どのように始めればよいでしょうか?オンプレミスのGenAIモデルで使用するデータを特定し、準備するには、このフレームワークに従ってください。

データ準備プレイブック

要件を定義する

GenAIモデルで何を達成しようとしていますか?生成AIアプリケーションにはどのようなデータが必要ですか?具体的にどのような特徴や属性を捉える必要がありますか?モデル作成前、作成中、そして作成後に、どのようにバイアスを特定し、排除しますか?これらの質問への答えを徹底的に検討しないと、時間と資金の損失につながる可能性があります。

集める

IT リーダーとして、データ アーキテクトとエンジニアが生成 AI システムのトレーニングに必要なデータを特定して収集し、そのデータが正確かつ多様であることを確認する責任があります。

クリーン

データの「クリーニング」とは、欠損値の処理、エラーの修正、重複の除去、外れ値の対処を意味します。アンダーサンプリングは多数派グループのデータポイントを除外し、オーバーサンプリングは少数派グループのデータポイントを重複させる場合に使用します。どちらの手法も、よりバランスの取れたデータセットを集約するのに役立ちます。

前処理

次に、テキストのトークン化、画像のサイズ変更、音声特徴の抽出など、データの前処理を行います。このステップにより、データはトレーニングに適した状態になります。

ラベル

各データポイントに手動でラベルを割り当て、データが何を表しているかを強調します。ラベル付けは時間がかかりますが、高品質なGenAIモデルのトレーニングには不可欠です。

整理する

生成AIモデルの学習用データを整理します。これには、データを学習用、検証用、テスト用のセットに分割することが含まれます。Dell TechnologiesのグローバルCTO、ジョン・ローズ氏によると、多くの組織がデータの整理に苦労しているため、これは決して簡単な作業ではありません。「多くの人がデータの整理に遅れをとっています」とローズ氏は最近のGenAIのディスカッションで述べました。

モデルのトレーニング

高品質で整理されたデータがあれば、トレーニングを開始できます。トレーニングでは、モデルがトレーニングデータに存在するパターンと一致する新しいデータを生成することを学習します。

モデル評価

トレーニング後、検証データセットとテストデータセットを用いて生成モデルのパフォーマンスを評価する必要があります。テキスト、画像、その他の出力を評価し、それらが目的の基準を満たしていることを確認してください。

モニター

モデルを定期的に監視し、エラー、不整合、データの外れ値がないか確認してください。データ品質を監視することで、GenAIモデルが常に最良のデータを使用していることを保証し、バイアスクリープ(偏り)の回避にも役立ちます。プロのヒント:作業中にデータを分析するためのバイアス検出ツールを検討してみてください。

結論

上記のプレイブックは、GenAIモデル用のデータ準備における画一的なアプローチのように思えるかもしれませんが、すべてのビジネスはそれぞれ異なるため、バイアスや外れ値を含む出力はそれぞれ異なることを覚えておいてください。重要なのは、データの使用権を特定し、モデルに入力するために適切に準備されていることを確認することです。

「データを制御できなければ、効果的な AI サービスの提供は不可能になります。AI はデータによって駆動され、データでトレーニングされるため、モデルを微調整するだけでもデータに対する理解が必要になるからです」とデルのローズ氏は述べた。

近所のパン屋の例えに戻ると、パン職人が実績のあるレシピを使って技術を磨いたのと同じように、モデルの良し悪しは、モデルに入力するデータの品質によって決まります。

GenAI モデルを育成し成長させるために、何を与えますか?

Dell Generative AI ソリューションがデータに AI を導入するのにどのように役立つかをご覧ください。

Tagged: