
Apple の研究者による論文によると、「推論」機能を備えた生成 AI モデルは、従来の LLM と比較した場合、特定の種類の問題を解決するのに実際には優れていない可能性がある。
生成AIの開発者たちでさえ、その仕組みを正確には理解していません。彼らは時に、その謎をそれ自体の成果、つまり人間の理解を超えた何かを研究している証拠として語ります。Appleチームは、LLMの動作の根底にある「内部推論の痕跡」を深く掘り下げることで、その謎の一部を解明しようと試みました。
具体的には、研究者らは、答えを出す前に思考の連鎖と独自の推論の説明を生成する、OpenAI o3やAnthropicのClaude 3.7 Sonnet Thinkingなどの推論モデルに焦点を当てました。
調査結果によると、これらのモデルは、ますます複雑化する問題に苦戦する可能性があり、ある時点で精度が完全に低下し、より単純なモデルに比べてパフォーマンスが低下することが多いことが示されています。
標準モデルはいくつかのテストで推論モデルよりも優れている
研究論文によると、標準モデルは低複雑度のタスクでは推論モデルよりも優れた性能を発揮するが、中複雑度のタスクでは推論モデルの方が優れた性能を発揮する。どちらのモデルも、研究者が設定した最も複雑なタスクをこなすことはできなかった。
これらの課題はパズルであり、チームはトレーニングデータによる汚染を避け、制御されたテスト条件を作りたかったため、ベンチマークの代わりに選択されたと研究者らは書いている。
参照:Qualcomm は、AI およびデータ センター市場への進出を目指し、英国の新興企業 Alphawave を 24 億ドルで買収する計画です。
代わりに、Appleはハノイの塔のようなパズルで推論モデルをテストしました。このパズルは、3つのペグに連続したサイズの円盤を積み重ねるものです。推論モデルは、パズルのより単純なバージョンを解く際に、標準的な大規模言語モデルよりも精度が低かったのです。
中程度のパズルでは、推論モデルは従来のLLMよりもわずかに優れたパフォーマンスを発揮しました。より難しいパズル(8枚以上のディスク)では、アルゴリズムが提供されたとしても、推論モデルはパズルを全く解くことができませんでした。推論モデルは単純なパズルでは「考えすぎ」てしまい、より難しいパズルを解くのに十分な外挿ができませんでした。
具体的には、Anthropic の Claude 3.7 Sonnet を推論機能付きとなしでテストしたほか、DeepSeek R1 と DeepSeek R3 を比較し、同じ基礎アーキテクチャを持つモデルを比較しました。
推論モデルは「考えすぎる」可能性がある
特定のパズルを解くことができないということは、推論モデルの動作方法が非効率であることを示唆しています。
「複雑度が低い場合、非思考モデルの方が精度が高く、トークン効率も高い。複雑度が増すにつれて、推論モデルの方が性能が優れているものの、より多くのトークンが必要となる。そして、ある閾値を超えると、両者とも限界値を超え、トレースが短くなる」と研究者らは記している。
推論モデルは「考えすぎ」、正しい解決策を見つけた後でも間違ったアイデアの探索にトークンを費やす可能性があります。
「LRM は限られた自己修正機能しか持たず、それは価値があるものの、根本的な非効率性と明らかなスケーリングの限界を明らかにする」と研究者らは書いている。
研究者らはまた、モデルのトレーニングデータ内に類似の例が不足しているために、川渡りパズルなどのタスクのパフォーマンスが低下し、一般化したり、新たなバリエーションを推論したりする能力が制限されている可能性もあることを観察した。
生成 AI の開発は停滞期に達しているのでしょうか?
2024年、Appleの研究者は数学における大規模言語モデルの限界に関する同様の論文を発表し、AI数学ベンチマークが不十分であることを示唆した。
業界全体で、生成AIの進歩は限界に達したのではないかという意見が出ています。今後のリリースは、大きな飛躍というよりは、段階的なアップデートとなる可能性があります。例えば、OpenAIのGPT-5は、既存のモデルをよりアクセスしやすいUIに統合しますが、ユースケースによっては、大幅なアップグレードにはならないかもしれません。
今週、世界開発者会議を開催しているアップルは、自社製品に生成AI機能を追加するのが比較的遅い。