トピック — 人工知能
出版

OpenAI の最もインテリジェントな AI モデルの最新バージョンである o3-pro は、数学、科学、コーディングのベンチマークで以前のモデルよりも優れた性能を発揮します。

OpenAIは、oシリーズラインナップの最新かつ最先端モデルであるo3-proを正式にリリースしました。このモデルファミリーのこれまでのイテレーションは、特に数学、プログラミング、科学的なタスクにおいて、標準的なAIベンチマークにおいて一貫して優れた結果をもたらしており、o3-proはそれらの強みをさらに強化しています。
OpenAIのo3-proのリリースノートには、次のように記載されています。「o1-proと同様に、o3-proは当社の最も知能の高いモデルであるo3のバージョンであり、より長く思考し、最も信頼性の高い応答を提供するように設計されています。o1-proのリリース以来、ユーザーは数学、科学、コーディングなどの分野でこのモデルを好んで使用しており、学術的な評価でも示されているように、o3-proはこれらの分野で優れた性能を発揮し続けています。」
o3-pro モデルは現在、ChatGPT とその API で Pro および Team ユーザーが利用できます。以前のモデルと同様の展開スケジュールに従い、来週には Edu および Enterprise アカウントでも利用できるようになる予定です。
比較評価
OpenAIはベンチマークデータを公開する前に、人間のテスターにo3-proを試用し、o3の結果と比較する機会を与えました。これらの人間のテスターの大多数は、以下の主要な点においてo3よりもo3-proを高く評価しました。
- すべてのクエリ(64%)
- 科学的分析(64.9%)
- 個人的な文章(66.7%)
- コンピュータプログラミング(62.7%)
- データ分析(64.3%)
Pass@1の精度と効率のベンチマーク
現代のAIモデルの効率性を測定するために頻繁に使用されるpass@1ベンチマークは、モデルが最初の試行で正確な応答を生成する能力を強調します。予想通り、o3-proは様々なベンチマークにおいてo3とo1-proを上回りました。
競技数学(AIME 2024) | 博士レベルの科学(GPQAダイヤモンド) | 競技コーディング(Codeforces) | |
---|---|---|---|
o3プロ | 93% | 84% | 2748 |
o3 | 90% | 81% | 2517 |
o1-プロ | 86% | 79% | 1707 |
4/4信頼性ベンチマーク
OpenAIのチームは、AIモデルを一連の4/4信頼性ベンチマークにかけました。これらの評価では、AIモデルは4回の試行のうち4回で正しい応答を返す場合にのみ成功とみなされます。失敗した試行は、4/4信頼性ベンチマークで自動的に不合格となります。
競技数学(AIME 2024) | 博士レベルの科学(GPQAダイヤモンド) | 競技コーディング(Codeforces) | |
---|---|---|---|
o3プロ | 90% | 76% | 2301 |
o3 | 80% | 67% | 2011 |
o1-プロ | 80% | 74% | 1423 |
o3-proの制限
考慮すべき o3-pro の制限は次のとおりです。
- 本稿執筆時点では、OpenAI チームが技術的な問題に対処している間、o3-pro の一時チャットは現在無効になっています。
- o3-proは画像生成をサポートしていません。画像生成機能を必要とするユーザーは、GPT-4o、OpenAI o3、またはOpenAI o4-miniを使用することをお勧めします。
- o3-proはOpenAIのCanvasインターフェースをサポートしていません。後日サポートが追加されるかどうかは不明です。
o3-proの長所と短所を比較検討する
OpenAIはo3-proのパフォーマンスがo1-proよりも遅い場合があることを認めていますが、これは最新バージョンの追加機能によるものです。TechnologyAdviceの編集長Corey Noles氏は、TechRepublicの姉妹サイトThe Neuronのユーザーガイドで、「o3-Proは普段のチャット仲間ではありません。速度よりも精度が優先される時に呼び出す天才です」と述べています。
リアルタイムでインターネットを検索したり、複雑なデータ分析を実行したり、視覚的なプロンプトに基づいて推論を提供したりできるなど、全体的な機能性に関しては o3-pro が明らかに勝者です。
OpenAI CEO サム・アルトマンによるスーパーインテリジェンス予測に関する記事をお読みください。

JRジョニヴァン
JR Johnivan 氏は 17 年のキャリアを持つベテランで、IT、コンピュータ ネットワーク、セキュリティ、クラウド コンピューティング、人材配置、人事、不動産、スポーツ、エンターテイメントなど、イノベーションとテクノロジーに関する執筆活動に力を入れています。