OpenAIのo3: AIベンチマークの不一致がパフォーマンス主張のギャップを明らかに

OpenAIのo3: AIベンチマークの不一致がパフォーマンス主張のギャップを明らかに

トピック — 人工知能

出版

メーガン・クラウスの画像

アフィリエイトリンクまたはスポンサーシップを通じて、ベンダーから収益を得る場合があります。これにより、サイト上の商品配置が影響を受ける可能性がありますが、レビューの内容には影響しません。詳細は利用規約をご覧ください。

Epoch AIのFrontierMathベンチマークは、生成モデルを難解な数学問題でテストします。OpenAIのo3をはじめとするAIモデルのパフォーマンスをご覧ください。

OpenAI の o3 および o4-mini の FrontierMath 精度を主要モデルと比較した値。
OpenAIのo3とo4-miniのFrontierMath精度を主要モデルと比較。画像:Epoch AI

高度な数学問題における生成AIのベンチマークテストであるFrontierMathの最新結果によると、OpenAIのo3モデルは、OpenAIが当初発表したよりも低いパフォーマンスを示しました。新しいOpenAIモデルは現在o3よりも優れたパフォーマンスを発揮していますが、この差異はAIベンチマークを綿密に精査する必要があることを浮き彫りにしています。

このテストを開発・運営する研究機関、エポックAIは4月18日に最新の調査結果を発表した。

OpenAIは12月にテストの25%が完了したと主張した。

昨年、OpenAI o3のFrontierMathスコアは、OpenAIの12日間のホリデーイベントの一環として発表された、圧倒的な数の発表とプロモーションの一部でした。同社は、当時最も強力な推論モデルであったOpenAI o3が、FrontierMathで問題の25%以上を解いたと主張しました。一方、TechCrunchによると、競合するAIモデルのスコアは2%程度でした。

参照: アースデイに向けて、 組織は生成 AI のパワーを持続可能性の取り組みに組み込むことができます

4月18日、Epoch AIはOpenAI o3のスコアが10%近くに達したことを示すテスト結果を発表しました。では、なぜこれほど大きな差が生じたのでしょうか?12月当時はモデルもテストも異なっていた可能性があります。昨年ベンチマークに提出されたOpenAI o3のバージョンはプレリリース版でした。FrontierMath自体も12月から変更されており、数学問題の数も変更されています。これは必ずしもベンチマークを信用すべきではないということではありません。むしろ、バージョン番号をよく確認するようにしてください。

OpenAI o4とo3 miniがFrontierMathの最新結果で最高得点を獲得

更新された結果では、OpenAI o4(推論機能付き)が最も優れたスコアを示し、15%から19%のスコアを獲得しました。これに続いてOpenAI o3 miniが3位でした。その他のランキングは以下の通りです。

  • オープンAI o1
  • Grok-3 ミニ
  • クロード 3.7 ソネット (16K)
  • グロク3
  • クロード 3.7 ソネット (64K)

Epoch AI は独自にテストを管理していますが、元々は OpenAI が FrontierMath に委託し、そのコンテンツを所有しています。

AIベンチマークに対する批判

ベンチマークは生成AIモデルを比較する一般的な方法ですが、テスト設計や透明性の欠如によって結果が左右される可能性があると批判する声もあります。2024年7月の研究では、ベンチマークは狭いタスクの精度を過度に重視し、評価方法が標準化されていないという懸念が提起されました。

記事をシェア

こちらもご覧ください

  • マイクロソフトの新しいCopilot Studio機能は、よりユーザーフレンドリーな自動化を提供します
  • 米当局、ディープシークAIアプリは「米国人をスパイするために設計された」と主張
  • トランプ大統領の関税:テクノロジー製品の価格に影響するか?
  • 人工知能:さらに読むべき記事
メーガン・クラウスの画像

ミーガン・クラウス

メーガン・クラウスは、B2Bニュースおよび特集記事の執筆で10年の経験を有し、Manufacturing.netのライター、そして後に編集者として活躍しました。彼女のニュース記事や特集記事は、Military & Aerospace Electronics、Fierce Wireless、TechRepublic、eWeekに掲載されています。また、Security Intelligenceではサイバーセキュリティに関するニュースや特集記事の編集も担当しました。フェアリー・ディキンソン大学で英文学の学位を取得し、クリエイティブライティングを副専攻しました。

Tagged: