GoogleのGemini 2.5 Proは、お気に入りのAIモデルよりもコーディング、数学、科学の分野で優れている - TechRepublic

GoogleのGemini 2.5 Proは、お気に入りのAIモデルよりもコーディング、数学、科学の分野で優れている - TechRepublic

ジェミニ 2.5 グーグル

Googleは、Gemini 2.5ファミリーの初代モデルとなるGemini 2.5 Proを発表しました。このマルチモーダル推論モデルは、コーディング、数学、科学に関連する主要なベンチマークにおいて、OpenAI、Anthropic、DeepSeekなどの競合製品を凌駕しています。

推論 AI モデルとは何ですか?

推論AIは「発言する前に考える」ように設計されています。文脈を評価し、詳細を体系的に処理し、回答の事実確認を行って論理的な正確性を確保しますが、これらの機能にはより多くの計算能力と高い運用コストが必要になります。

OpenAIは昨年9月、o1という最初の推論モデルを発表しました。これは、主に言語生成に焦点を当てていたGPTシリーズからの大きな転換でした。その後、AI競争の主要プレーヤーたちはこれに応え、DeepSeekはR1、AnthropicはClaude Sonnet 3.7、そしてxAIはGrok 3を発表しました。

「閃き」を超えて進化する

Googleは昨年12月に、初の推論AIモデル「Gemini 2.0 Flash Thinking」をリリースしました。エージェント機能を売りにしていたFlash Thinkingは、最近アップデートされ、ファイルのアップロードやプロンプトの文字数増加に対応しました。しかし、Gemini 2.5 Proの導入により、Googleは「Thinking」という名称を完全に廃止するようです。

GoogleのGemini 2.5に関する発表によると、これは推論機能が将来のすべてのモデルにネイティブに統合されるためです。この変化は、「思考」機能を独立したブランドとして分離するのではなく、より統合されたAIアーキテクチャへの移行を示しています。

この新しい実験モデルは、「大幅に強化されたベースモデル」と「改善されたトレーニング後処理」を組み合わせたものです。Googleは、主要な大規模言語モデルを様々なタスクでランク付けするLMArenaリーダーボードで、このモデルのパフォーマンスがトップにランクインしたことを誇っています。

ダウンロード: TechRepublic PremiumのビジネスにおけるAIの活用方法

科学、数学、コードのベンチマークリーダー

Gemini 2.5 Proは、アカデミック推論のベンチマークにおいて優れたスコアを獲得し、AIME 2025(数学)で86.7%、GPQAダイヤモンドベンチマーク(科学)で84.0%のスコアを獲得しました。数学、科学、人文科学の分野にわたる数千問の問題を網羅した幅広いテストであるHumanity's Last Examでは、このモデルは18.8%のスコアでトップの成績を収めました。

注目すべきは、これらの結果は高価なテスト時間技術を使用せずに達成されたため、o1 や R1 などのモデルは評価中に学習を継続できるということです。

ソフトウェア開発ベンチマークでは、Gemini 2.5 Proのパフォーマンスはまちまちです。コード編集のAider Polyglotベンチマークでは68.6%のスコアを記録し、上位機種のほとんどを上回りました。しかし、SWE-bench Verifiedでは63.8%のスコアを記録し、より広範なプログラミングタスクではClaude Sonnet 3.7に次ぐ2位となりました。

それにもかかわらず、Google は、Gemini 2.5 Pro は「視覚的に魅力的な Web アプリやエージェント コード アプリケーションの作成に優れている」と述べており、これは単一のプロンプトからビデオ ゲームを作成できることからも明らかです。

このモデルは100万トークンのコンテキストウィンドウをサポートしており、75万語のプロンプト、つまりハリー・ポッターの最初の6巻に相当する情報を処理できます。Googleは、この閾値を今後200万トークンに引き上げる予定です。

Gemini 2.5 Proは現在、月額20ドルのサブスクリプションが必要なGemini Advancedアプリと、Google AI Studioを通じて開発者および企業向けに提供されています。今後数週間以内に、Gemini 2.5 ProはGoogleの開発者向け機械学習プラットフォームであるVertex AIでも利用可能になり、レート制限ごとの価格詳細も発表される予定です。

Tagged: