合成データ:機械学習の未来

合成データ:機械学習の未来
データシンボルが浮かんでいるノートパソコンで作業している人
画像: everything possible/Shutterstock

データは機械学習モデルの生命線です。しかし、この誰もが欲しがるリソースへのアクセスが限られているとしたらどうなるでしょうか?多くのプロジェクトや企業が示し始めているように、合成データは、より優れているとは言わないまでも、現実的な代替手段となり得るのです。

合成データとは何ですか?

合成データとは、直接的な測定によって得られず、人工的に作られた情報と定義できます。「偽の」データという概念は、本質的には新しいものでも革新的なものでもありません。実際には、モデルが機能するために必要な情報が不足している状態で、テストデータやトレーニングデータを生成する手法の別の呼び方です。

かつては、データ不足のせいで、ランダムに生成されたデータポイントセットを用いるという便利なアプローチが取られていました。教育やテストの目的であれば十分だったかもしれませんが、ランダムデータはいかなる予測モデルの学習にも適したものではありません。この点で合成データの考え方は異なります。合成データは信頼性が高いからです。

合成データとは、本質的に、ランダム化されたデータをどのように生成するかを賢く制御できるという明確な概念です。このアプローチは、単なるテストではなく、より高度なユースケースにも適用できます。

合成データはどのように作成されるのでしょうか?

合成データはランダム データとは作成方法が異なるわけではなく、より複雑な入力セットを通じて作成されるだけですが、目的が異なるため、独自の要件があります。

合成アプローチは、事前に入力として与えられた特定の基準に基づき、かつその基準に限定されます。実際には、全くランダムではありません。実際には、データポイントの範囲、分布、頻度を規定する特定の分布と基準を持つサンプルデータセットに基づいています。基本的に、その目的は、実際のデータを複製してより大きなデータセットを作成し、機械学習モデルの学習に十分な拡張性を持たせることです。

参照: 人工知能倫理ポリシー (TechRepublic Premium)

この手法は、合成データを精緻化するために用いられる深層学習手法を探求する際に特に興味深いものとなります。アルゴリズムは、合成データの生成と識別能力において互いに競い合うことで、互いに競い合うことができます。本質的には、ここでの目的は、超現実的なデータを生成するための人工的な軍拡競争を作り出すことです。

そもそも合成データはなぜ必要なのでしょうか?

食料の栽培から燃料の生産まで、文明を発展させるために必要な貴重な資源を集めることができなければ、私たちはそれを生み出す方法を見つけます。同じ原則が、機械学習とAIのためのデータの分野にも当てはまります。

アルゴリズムを訓練する際には、非常に大きなサンプルデータを用意することが不可欠です。そうでないと、アルゴリズムが識別したパターンが現実世界での応用には単純すぎるリスクがあります。これは実に理にかなっています。人間の知能が問題を解決するために最も簡単な方法を選ぶ傾向があるように、機械学習やAIの訓練でも常に同じことが起こります。

例えば、複数の猫の画像から犬を正確に識別できる物体認識アルゴリズムにこれを当てはめてみましょう。データ量が少なすぎると、AIは識別しようとしている物体の基本的な特徴とは異なるパターンに頼ってしまうリスクがあります。この場合、AIはまだうまく機能するかもしれませんが、最初に識別したパターンに従わないデータに遭遇すると、完全に失敗してしまいます。

合成データは AI のトレーニングにどのように使用されますか?

では、解決策は何でしょうか?ネットワークに特定のピクセルの配置だけでなく、画像の根本的な構造を見つけさせるため、わずかに異なる動物をたくさん描きます。しかし、何百万匹もの犬を手で描くよりも、分類用に構築されたアルゴリズムのトレーニングに使用できる、犬を描くことだけに特化したシステムを構築する方が効果的です。これは、機械学習アルゴリズムのトレーニングに合成データを提供する際に、私たちが行っていることと本質的に同じです。

しかし、この方法には明らかな落とし穴があります。何もないところからデータを生成するだけでは現実世界を反映したものではなく、実際のデータに遭遇した際に機能しないアルゴリズムが生成される可能性が高くなります。解決策は、データのサブセットを収集し、その中の傾向と範囲を分析して特定し、そのデータを用いて、私たちがすべてを独自に収集した場合のデータをほぼ正確に再現する、大規模なランダムデータプールを生成することです。

合成データの真の価値はここにあります。もはや、使用前にデータをクリーニングし、処理する必要はなく、疲れることなくデータを収集し続けることができます。

データプライバシーへの注目が高まる中、合成データはどのようにソリューションとなるのでしょうか?

現在、世界は、特にEUにおいて、プライバシーとオンラインプレゼンスによって生成されるデータの保護強化に向けた大きな転換期を迎えています。機械学習とAIの分野では、データ保護の強化が常に課題となっています。特にB2Cソリューションにおいては、学習アルゴリズムを効果的に機能させ、エンドユーザーに価値を提供するためには、制限されたデータこそがまさに必要な場合が多いのです。

一般的に、プライバシーの問題は、個人がソリューションの利用を決定し、データの利用を承認することで解決されます。ここで問題となるのは、ユーザーに個人データを提供するだけの十分な価値を提供するソリューションが完成するまでは、個人データの提供を納得してもらうのが非常に難しいことです。その結果、プロバイダーはしばしば「鶏が先か卵が先か」というジレンマに陥ってしまいます。

参照: ビジネスに最適なデータプライバシーソフトウェアの選び方 (TechRepublic)

解決策としては、企業がアーリーアダプターを通じてデータのサブセットを取得する合成アプローチが考えられます。そして、その情報を基に、機械学習やAIの学習に必要な十分なデータを生成することができます。このアプローチにより、時間とコストのかかる個人データの必要性を大幅に削減しつつ、実際のユーザー向けのアルゴリズム開発も進めることができます。

ヘルスケア、銀行、法律など、データに関する官僚的な苦労に巻き込まれている特定の業界にとって、合成データは、これまで入手できなかった量のデータにアクセスするためのより容易なアプローチを提供し、新しいより高度なアルゴリズムに対する制限を取り除きます。

合成データは実際のデータに取って代わることができますか?

実データの問題は、機械学習やAIアルゴリズムの学習を目的として生成されていないことです。実データは、私たちの周りで起こる出来事の副産物に過ぎません。前述の通り、これは当然のことながら、データの入手性や収集の容易さに制約を課すだけでなく、データのパラメータや、結果を歪める可能性のある欠陥(外れ値)の可能性にも制約を課します。だからこそ、カスタマイズや制御が可能な合成データは、モデルの学習においてより効率的です。

しかし、優れたトレーニング用途にもかかわらず、合成データは必然的に、その生成において少なくとも少量の実データに依存します。つまり、合成データが元となる初期データに取って代わることは決してありません。より現実的には、アルゴリズムのトレーニングに必要な実データ量を大幅に削減できるでしょう。トレーニングはテストよりもはるかに多くのデータを必要とします。一般的に、データの80%がトレーニングに、残りの20%がテストに使用されます。

結局のところ、正しくアプローチすれば、合成データは、現実世界からデータを取得するよりも低コストで、データ プライバシーの脅威にさらされる必要性を減らしながら、必要なデータをより迅速かつ効率的に取得する方法を提供します。

クリスチャン・ラヴァエツ・ハルヴォルセン
Christian Lawaetz Halvorsen 氏、CTO 兼 Valuer 共同創設者

クリスチャン・ラワエツ・ハルヴォルセンは、企業の戦略策定と意思決定に不可欠な情報入手方法に革命をもたらすAI駆動型プラットフォーム「 Valuer 」の最高技術責任者(CTO)兼共同創業者です。南デンマーク大学で工学、製品開発、イノベーションの修士号を取得したクリスチャンは、人間と機械の知能を最適に組み合わせることで、Valuerの技術インフラの改良に尽力しています。

Tagged: