OpenAIが「最もインテリジェントなモデル」のアップグレード版「o3-pro」をリリース

OpenAIが「最もインテリジェントなモデル」のアップグレード版「o3-pro」をリリース

トピック — 人工知能

出版

JRジョニヴァンの画像

OpenAI の最もインテリジェントな AI モデルの最新バージョンである o3-pro は、数学、科学、コーディングのベンチマークで以前のモデルよりも優れた性能を発揮します。

OpenAI の o3-pro と人間のテスターとの比較評価。
OpenAIのo3-proと人間のテスターとの比較評価。画像: OpenAI

OpenAIは、oシリーズラインナップの最新かつ最先端モデルであるo3-proを正式にリリースしました。このモデルファミリーのこれまでのイテレーションは、特に数学、プログラミング、科学的なタスクにおいて、標準的なAIベンチマークにおいて一貫して優れた結果をもたらしており、o3-proはそれらの強みをさらに強化しています。

OpenAIのo3-proのリリースノートには、次のように記載されています。「o1-proと同様に、o3-proは当社の最も知能の高いモデルであるo3のバージョンであり、より長く思考し、最も信頼性の高い応答を提供するように設計されています。o1-proのリリース以来、ユーザーは数学、科学、コーディングなどの分野でこのモデルを好んで使用しており、学術的な評価でも示されているように、o3-proはこれらの分野で優れた性能を発揮し続けています。」

o3-pro モデルは現在、ChatGPT とその API で Pro および Team ユーザーが利用できます。以前のモデルと同様の展開スケジュールに従い、来週には Edu および Enterprise アカウントでも利用できるようになる予定です。

比較評価

OpenAIはベンチマークデータを公開する前に、人間のテスターに​​o3-proを試用し、o3の結果と比較する機会を与えました。これらの人間のテスターの大多数は、以下の主要な点においてo3よりもo3-proを高く評価しました。

  • すべてのクエリ(64%)
  • 科学的分析(64.9%)
  • 個人的な文章(66.7%)
  • コンピュータプログラミング(62.7%)
  • データ分析(64.3%)

Pass@1の精度と効率のベンチマーク

現代のAIモデルの効率性を測定するために頻繁に使用されるpass@1ベンチマークは、モデルが最初の試行で正確な応答を生成する能力を強調します。予想通り、o3-proは様々なベンチマークにおいてo3とo1-proを上回りました。

競技数学(AIME 2024)博士レベルの科学(GPQAダイヤモンド)競技コーディング(Codeforces)
o3プロ93%84%2748
o390%81%2517
o1-プロ86%79%1707

4/4信頼性ベンチマーク

OpenAIのチームは、AIモデルを一連の4/4信頼性ベンチマークにかけました。これらの評価では、AIモデルは4回の試行のうち4回で正しい応答を返す場合にのみ成功とみなされます。失敗した試行は、4/4信頼性ベンチマークで自動的に不合格となります。

競技数学(AIME 2024)博士レベルの科学(GPQAダイヤモンド)競技コーディング(Codeforces)
o3プロ90%76%2301
o380%67%2011
o1-プロ80%74%1423

o3-proの制限

考慮すべき o3-pro の制限は次のとおりです。

  • 本稿執筆時点では、OpenAI チームが技術的な問題に対処している間、o3-pro の一時チャットは現在無効になっています。
  • o3-proは画像生成をサポートしていません。画像生成機能を必要とするユーザーは、GPT-4o、OpenAI o3、またはOpenAI o4-miniを使用することをお勧めします。
  • o3-proはOpenAIのCanvasインターフェースをサポートしていません。後日サポートが追加されるかどうかは不明です。

o3-proの長所と短所を比較検討する

OpenAIはo3-proのパフォーマンスがo1-proよりも遅い場合があることを認めていますが、これは最新バージョンの追加機能によるものです。TechnologyAdviceの編集長Corey Noles氏は、TechRepublicの姉妹サイトThe Neuronのユーザーガイドで、「o3-Proは普段のチャット仲間ではありません。速度よりも精度が優先される時に呼び出す天才です」と述べています。

リアルタイムでインターネットを検索したり、複雑なデータ分析を実行したり、視覚的なプロンプトに基づいて推論を提供したりできるなど、全体的な機能性に関しては o3-pro が明らかに勝者です。

OpenAI CEO サム・アルトマンによるスーパーインテリジェンス予測に関する記事をお読みください

記事をシェア
JRジョニヴァンの画像

JRジョニヴァン

JR Johnivan 氏は 17 年のキャリアを持つベテランで、IT、コンピュータ ネットワーク、セキュリティ、クラウド コンピューティング、人材配置、人事、不動産、スポーツ、エンターテイメントなど、イノベーションとテクノロジーに関する執筆活動に力を入れています。

Tagged: