OpenAIは国際数学オリンピックで金メダルを獲得したか?

OpenAIは国際数学オリンピックで金メダルを獲得したか?
画像: X/@alexwei_

OpenAIの最新モデルは、2025年国際数学オリンピックでゴールドレベルのスコアを獲得しました。試験環境下で6問中5問を正解し、42点満点中35点を獲得しました。

国際数学オリンピックは、世界で最も権威があり、最も難しい高校生のための数学コンテストとして知られています。今年の参加者のうち、金メダルを獲得したのはわずか10%程度でしたが、過去には多くのフィールズ賞受賞者がいます。参加者はインターネットやツールへのアクセスなしに、4時間半のセッションを2回行い、6問の問題に解答します。

AIモデルによる数学問題の解決の成功はまちまち

人工知能モデルは、論理の理解に苦労することがあるため、複雑な数学問題で優れた成績を収めることはあまり知られていません。しかしながら、最近、Gemini 2.5 ProとOpenAIのo3は、AIモデルの重要な数学ベンチマークであるアメリカ招待数学試験(AIMEX)で、それぞれ86.7%と88.9%のスコアを獲得しました。対照的に、2024年9月には、o1が国際数学オリンピックの予選試験で83%のスコアを獲得しました。また、Grok 4はAIME(数学オリンピック問題)で満点の100%を獲得したと報告されています。

「私の意見では、過去のベンチマークと比較して、問題は新たなレベルの持続的な創造的思考を必要とする」と、OpenAIの研究者であるアレクサンダー・ウェイ氏は、未発表モデルのマイルストーンを発表した後、Xに投稿した。彼の同僚であるノーム・ブラウン氏は、昨年までAI研究室はGSM8Kテストを例に挙げ、小学校の算数をベンチマークとして使っていたと述べた。

OpenAIのCEO、サム・アルトマン氏は、この実験モデルは「数学を扱う法学修士課程の学生であり、アルファジオメトリーのような特定の正式な数学システムではない」と述べ、同社が汎用知能の実現に向けて順調に進んでいることを示した。

Scientific Americanのドイツ語版編集者であるマノン・ビショフ氏は、2024年1月に、AIモデルが国際数学オリンピックに出場できるようになるまでには「数年」かかるだろうと予測しました。しかし、AIモデルは急速に進化しています。当時、ビショフ氏は数学特化型モデル「AlphaGeometry」のリリースを発表しました。このモデルは、2000年から2024年までの大会で出題された幾何学の問題の54%を解くことができました。2025年2月時点では、第2世代バージョンが84%を解くことができました

IMOでのOpenAIの金メダルに疑問符

OpenAI の数学的能力の飛躍的向上を誰もが確信しているわけではない。

Google DeepMindの研究員タン・ルオン氏とOpenAIの元CTOミハイル・サミン氏によると、OpenAIのモデルは国際数学オリンピックの公式ガイドラインに基づいて採点されていないため、金メダリストであるという主張は検証できないとのことだ。ウェイ氏はXで、「3人の元IMOメダリストがモデルの提出された証明を独立して採点し」、そのスコアについて「全員一致の合意」に達したと述べた。

OpenAIは、モデルの数学的能力のベンチマークに関しては、それほど高い評価を得ていません。4月、FrontierMathベンチマークを開発した独立系研究機関Epoch AIは、o3モデルが高度な問題に正しく答えられるのはわずか10%程度であることを発見しました。これは、OpenAIが2024年12月に主張した25%以上の精度から大幅に低下した数値です。

オリンピックに参加した実験モデルがリリースされるまでは、誰も同じレベルの独立した検証を行うことは困難です。残念ながら、Wei氏はOpenAIが「このレベルの数学機能を備えたものをリリースする予定は数ヶ月間ない」と認めており、GPT-5は「間もなく」リリースされるため、この実験システムがそのリリースに含まれる可能性は低いでしょう。

数学的能力は明らかにOpenAIにとって重要な資質です。先月、OpenAIは同社がこれまでで最も知能が高いと称するo3-proモデルをリリースしました。

Tagged: