
Google DeepMindは、インタラクティブな3D環境をシミュレートするように設計された人工知能モデルのリリースを準備しており、ロボットや自律システムなどのAIエージェントのトレーニングの場を提供します。「Genie 3」と呼ばれるこのAIモデルにより、これらのエージェントは、物理法則に基づいたリアルな仮想環境でタスクを実行する方法を学習できるようになります。
汎用人工知能に一歩近づく
GoogleのAI部門は、いわゆる「世界モデル」を「AGI(人工汎用知能)への道の踏み石」と表現しています。AGIとは、システムが人間レベルの認知能力を持つ人工知能です。これを実現するには、AIエージェントを物理法則に従ったシミュレーションで訓練する必要があります。
しかし、Genie 3 は、倉庫などの管理された環境で物流タスクを実行する方法を学習するロボットのトレーニングに役立つだけではありません。地上の安全な場所からベースジャンプを体験したり、ミスによって命が失われることのない山岳救助ミッションを練習したりするなど、人間向けの没入型シミュレーションも提供できます。
より長い実行時間と空間メモリ
Genie 3は、720p解像度で毎秒24フレームの速度で、一度に数分間、環境を生成できます。各フレームは前のフレームに基づいて順次生成される自己回帰アプローチを採用していますが、エラーが蓄積され、ビデオ品質が低下するという問題が生じる可能性があります。しかし、このモデルは数分間シミュレーションを維持し、最大1分間の出力を記憶できるため、環境内のユーザーは同じ場所を再訪することができます。
Genie 3は、最大20秒間の環境しか生成できず、リアルタイムのインタラクションが不可能だった前身のGenie 2をベースに構築されています。このモデルには、Google DeepMindの動画生成ツールVeo 3の技術も組み込まれており、「直感的な物理学の深い理解」も含まれています。
SIMAでテスト済み、プロンプトで制御可能
Googleは、汎用エージェントSIMAを用いてGenie 3をテストし、シミュレーション上の世界を移動することで達成すべき一連の目標を与えました。「Genie 3はエージェントの目標を認識しません。その代わりに、エージェントの行動に基づいて未来をシミュレートします」とGoogleは述べています。
新しい AI モデルでは、シミュレーションを起動するためにテキスト プロンプトのみが必要であり、実行後は、崖のシーンに滝を追加するなど、追加のプロンプトで環境をリアルタイムで変更できます。
先月リリースされた「Mirage」という別の AI ツールも、自動回帰とテキスト プロンプトを使用してライブ ビデオをリアルタイムで変換します。
完全リリース前に制限が残る
GoogleがGenie 3をまだリリースしていないのは、いくつかの重要な制限が残っているためです。まず、このAIモデルは数分以上のインタラクションをサポートできず、エージェントや人間にとって有意義な有用性を発揮するには不十分です。
さらに、環境は幅広いイベントをシミュレートできますが、エージェントはまだそれらすべてに適切に対応できず、またエージェント同士も適切に対応できません。また、Genie 3は現実世界の場所を完全な地理的精度でレンダリングすることも、プロンプトで明示的に指定されていないテキストを判読可能にレンダリングすることもできません。
「Genie 3は世界モデルにとって重要な節目であり、AI研究と生成メディアの多くの分野に影響を与え始めると考えています」とGoogleは述べています。「そのため、今後さらに多くのテスターにGenie 3をご利用いただけるようにするための方法を検討しています。」
Google は最近、Google DeepMind チームのマルチエージェント AI モデルである Deep Think を Gemini アプリ経由で利用できるようにしました。