トピック — 人工知能
出版

Claude Opus 4.1 は、SWE-bench Verified ベンチマークで 74.5% のスコアを獲得し、実際のプログラミング、バグ検出、エージェントのような問題解決において大きな改善が見られました。

AnthropicはClaude Opus 4.1をリリースしました。これは、同社の主力AIモデルの強化版として位置付けられ、高度なプログラミング、デバッグ、分析タスク向けにアップグレードされています。このアップデートされたAIモデルは、Claude ProおよびClaude Codeのサブスクリプションメンバーに提供されており、API、Amazon Bedrock、Google CloudのVertex AIを通じてアクセスできます。
Opus 4.1の目立った改善点
Claude Opus 4.1 で最も重要な機能強化は、複数のファイルの分析、複雑なバグの特定、エージェントのような段階的な問題解決の実行など、複雑なコーディング タスクを実行できることです。
「Opus 4.1は最先端のコーディングパフォーマンスを向上させ、特に詳細追跡とエージェント検索に関するClaudeの詳細な調査とデータ分析スキルを向上させます」とAnthropicは新リリースを発表するブログ投稿で述べています。
初期のエンタープライズユーザーからのフィードバックは、改善点が単なる数字以上のものであることを示唆しています。楽天グループのエンジニアは、不要な変更やバグを発生させることなく、正確なコード修正を実現したOpus 4.1を高く評価しました。
開発者テスト プラットフォームの Windsurf は、Opus 4.1 はジュニア開発者タスクにおいて Opus 4 よりも標準偏差 1 つ優れたパフォーマンスを示したと指摘しました。これは、Claude Sonnet 3.7 から Sonnet 4 への飛躍と比較するとパフォーマンスの向上です。
このモデルは、実際のGitHub Issuesにおけるパフォーマンスを測定するSWE-bench Verifiedベンチマークで74.5%という驚異的なスコアを獲得しました。これはOpus 4からの大幅な向上であり、Claude 4.1はAIコーディングアシスタントのトップにさらに近づきました。
GitHub Copilotの統合によりリーチが拡大
GitHub Copilotは、EnterpriseおよびPro+プラン加入者向けにClaude Opus 4.1を追加しました。GitHubによると、このロールアウトにより、ユーザーはVisual Studio Code、github.com、GitHub Mobileを含むGitHub Copilot ChatでClaude Opus 4.1を選択できるようになります。
「Claude Opus 4.1はGitHub Copilot Chatで利用可能になります…[ただし]Visual Studio Codeでは、Opus 4.1は質問モードでのみ利用可能になります」とGitHubは確認した。
Copilot Enterprise の管理者は、チームで利用できるようにするには、新しく更新されたモデルポリシー設定でアクセスを有効にする必要があります。Claude Opus 4 は、廃止されるまでの 15 日間の移行期間中は引き続きご利用いただけます。
このAIリリースが開発者にとって何を意味するのか
すでに Claude を使用して構築している開発者の場合、アップグレードは簡単です。API 内のモデル識別子を claude-opus-4-1-20250805 に切り替えるだけです。
Anthropicは、開発者に対し、Claude Opus 4.1の複数のステップやインタラクションにわたる問題解決能力の向上を検証することを推奨しています。TAU-benchやTerminal-Benchなどのベンチマークでは、このモデルが複数ターン、複数ステップのタスクの処理能力が向上し、AIエージェントやプロセス自動化システムの構築に適していることが示されています。
落とし穴は何ですか?
本日のThe Neuronニュースレターで、TechnologyAdviceのライターGrant Harvey氏はOpus 4.1について次のように述べています。「出力トークン100万個あたり75ドルは、Sonnet 4の5倍のコストです(ただし、これは現行のOpus 4と同じです)。つまり、上級エンジニアのようにデバッグするAIにお金を払うことになるわけです…それが価値があるかどうかはあなた次第です!」
また、Claude Opus 4.1 で完全に書かれた The Neuron の記事もご覧ください。
APIアクセスが面白くなってきました。AnthropicのClaude関連での最近の動きは、モデルの境界を越えて開発者が作業する方法を変える可能性があります。

アミヌ・アブドゥライ
Aminu Abdullahiは、経験豊富なB2Bテクノロジーおよび金融ライターです。TechRepublic、eWEEK、Enterprise Networking Planet、eSecurity Planet、CIO Insight、Enterprise Storage Forum、IT Business Edge、Webopedia、Software Pundit、Geekflareなど、様々な出版物に寄稿しています。