OpenAIが「最もインテリジェントなモデル」のアップグレード版「o3-pro」をリリース

トピック — 人工知能

出版2025年6月12日

OpenAI の最もインテリジェントな AI モデルの最新バージョンである o3-pro は、数学、科学、コーディングのベンチマークで以前のモデルよりも優れた性能を発揮します。

OpenAI の o3-pro と人間のテスターとの比較評価。 — OpenAIのo3-proと人間のテスターとの比較評価。画像: OpenAI

OpenAIは、oシリーズラインナップの最新かつ最先端モデルであるo3-proを正式にリリースしました。このモデルファミリーのこれまでのイテレーションは、特に数学、プログラミング、科学的なタスクにおいて、標準的なAIベンチマークにおいて一貫して優れた結果をもたらしており、o3-proはそれらの強みをさらに強化しています。

OpenAIのo3-proのリリースノートには、次のように記載されています。「o1-proと同様に、o3-proは当社の最も知能の高いモデルであるo3のバージョンであり、より長く思考し、最も信頼性の高い応答を提供するように設計されています。o1-proのリリース以来、ユーザーは数学、科学、コーディングなどの分野でこのモデルを好んで使用しており、学術的な評価でも示されているように、o3-proはこれらの分野で優れた性能を発揮し続けています。」

o3-pro モデルは現在、ChatGPT とその API で Pro および Team ユーザーが利用できます。以前のモデルと同様の展開スケジュールに従い、来週には Edu および Enterprise アカウントでも利用できるようになる予定です。

比較評価

OpenAIはベンチマークデータを公開する前に、人間のテスターにo3-proを試用し、o3の結果と比較する機会を与えました。これらの人間のテスターの大多数は、以下の主要な点においてo3よりもo3-proを高く評価しました。

すべてのクエリ（64％）
科学的分析（64.9％）
個人的な文章（66.7％）
コンピュータプログラミング（62.7％）
データ分析（64.3%）

Pass@1の精度と効率のベンチマーク

現代のAIモデルの効率性を測定するために頻繁に使用されるpass@1ベンチマークは、モデルが最初の試行で正確な応答を生成する能力を強調します。予想通り、o3-proは様々なベンチマークにおいてo3とo1-proを上回りました。

	競技数学（AIME 2024）	博士レベルの科学（GPQAダイヤモンド）	競技コーディング（Codeforces）
o3プロ	93%	84%	2748
o3	90%	81%	2517
o1-プロ	86%	79%	1707

4/4信頼性ベンチマーク

OpenAIのチームは、AIモデルを一連の4/4信頼性ベンチマークにかけました。これらの評価では、AIモデルは4回の試行のうち4回で正しい応答を返す場合にのみ成功とみなされます。失敗した試行は、4/4信頼性ベンチマークで自動的に不合格となります。

	競技数学（AIME 2024）	博士レベルの科学（GPQAダイヤモンド）	競技コーディング（Codeforces）
o3プロ	90%	76%	2301
o3	80%	67%	2011
o1-プロ	80%	74%	1423

o3-proの制限

考慮すべき o3-pro の制限は次のとおりです。

本稿執筆時点では、OpenAI チームが技術的な問題に対処している間、o3-pro の一時チャットは現在無効になっています。
o3-proは画像生成をサポートしていません。画像生成機能を必要とするユーザーは、GPT-4o、OpenAI o3、またはOpenAI o4-miniを使用することをお勧めします。
o3-proはOpenAIのCanvasインターフェースをサポートしていません。後日サポートが追加されるかどうかは不明です。

o3-proの長所と短所を比較検討する

OpenAIはo3-proのパフォーマンスがo1-proよりも遅い場合があることを認めていますが、これは最新バージョンの追加機能によるものです。TechnologyAdviceの編集長Corey Noles氏は、TechRepublicの姉妹サイトThe Neuronのユーザーガイドで、「o3-Proは普段のチャット仲間ではありません。速度よりも精度が優先される時に呼び出す天才です」と述べています。

リアルタイムでインターネットを検索したり、複雑なデータ分析を実行したり、視覚的なプロンプトに基づいて推論を提供したりできるなど、全体的な機能性に関しては o3-pro が明らかに勝者です。

OpenAI CEO サム・アルトマンによるスーパーインテリジェンス予測に関する記事をお読みください。

記事をシェア

JRジョニヴァン

JR Johnivan 氏は 17 年のキャリアを持つベテランで、IT、コンピュータネットワーク、セキュリティ、クラウドコンピューティング、人材配置、人事、不動産、スポーツ、エンターテイメントなど、イノベーションとテクノロジーに関する執筆活動に力を入れています。

スマートフォンで写真を撮るための5つのヒント - TechRepublic

Ubuntu Server 20.04にSELinuxをインストールする方法 - TechRepublic

国際多分野工学・ビジネスマネジメントジャーナル（IJMDEBM）アーカイブ - TechRepublic

BEC攻撃は正規のウェブサービスを模倣してクリックを誘導する

OpenAIが「最もインテリジェントなモデル」のアップグレード版「o3-pro」をリリース

比較評価

Pass@1の精度と効率のベンチマーク

4/4信頼性ベンチマーク

o3-proの制限

o3-proの長所と短所を比較検討する

比較評価

Pass@1の精度と効率のベンチマーク

4/4信頼性ベンチマーク

o3-proの制限

o3-proの長所と短所を比較検討する

Related News