フロンティアモデル「Claude Opus 4.6」および「GPT-5.3-Codex」リリース —⁠—ソフトウェア開発はAgentic Engineeringへ

2026年2月5日、AnthropicはClaude Opus 4.6を発表しました。同日、OpenAIもGPT‑5.3‑Codexを発表しました。これらのモデルは両社のフロンティアモデルです。同日にリリースされたため、今回は一緒に取り上げます。

Claude Opus 4.6

Anthropicは2026年2月5日、コーディング能力と推論能力を大幅に強化した「Claude Opus 4.6」を発表しました。通常は200Kのコンテキストウィンドウに対応し、ベータとしてOpusクラスとして初めて最大1Mトークンまで利用可能です。 最大128Kトークンの出力にも対応します。

性能はほぼ全体で向上

Claude Opus 4.6は、アナリストが数週間を要する財務モデル構築やM&A分析といった実務タスクにおいて、Sonnet 4.5比で23%ポイント以上の改善を記録しました。経済的価値を測るGDPval-AAでもGPT-5.2、前モデルOpus 4.5を上回ったほか、自律型コーディング評価Terminal-Bench 2.0で65.4%、自律操作タスクを評価するOSWorldで72.7%、そのほか推論テストHumanity’s Last Examや検索能力を測るBrowseCompのすべてにおいて前モデルを大幅に上回る結果を示しています。

高度な分析能力はセキュリティ分野でも発揮され、コードを読み解く推論によってタスク特化の周辺実装(custom scaffolding)や特殊なプロンプトに頼らなくても高深刻度の脆弱性を見つけられると報告されています。これまでに500件以上の高深刻度脆弱性を発見・検証し、順次報告とパッチ適用を進めているとのことです。こうした能力のリスクに備え、悪用検知の仕組みや対応フローも強化されました。⁠詳細は上記にも挙げているEvaluating and mitigating the growing risk of LLM-discovered 0-daysを参照のこと⁠⁠。また、長文脈処理においては「Context Rot(情報の消失⁠⁠」を劇的に改善しており、長文脈の情報検索(MRCR v2)ではSonnet 4.5の18.5%に対し76%という高い精度を記録しています(1Mトークン比⁠⁠。

ツール統合と開発者向け機能

ユーザーの実務環境への統合や開発者向けの機能についても強化が図られています。

CoworkおよびOfficeツール連携

フォルダ単位でファイルを分析するCoworkや、行動前の計画立案・非構造化データの構造化・複数ステップの一括処理などをサポートするClaude in Excelに加え、リサーチプレビューとしてClaude in PowerPointが登場しました。レイアウトやフォント、スライドマスターを読み取りブランドを維持した上で、テンプレートや記述に基づくスライド作成が可能になっています。なお、PowerPoint連携はMax/Team/Enterpriseプラン限定の機能とのことです。

Effort(思考リソース)制御

開発者はモデルの思考リソースをLow/Medium/High/Maxの4段階で調整可能になりました。モデルが単純なタスクで考えすぎる傾向がある場合は、デフォルトのHighからMediumへの引き下げが推奨とされています。

高度な自律機能とコンテキスト管理

自律的に思考深度を調整する「Adaptive thinking」や、設定された閾値に近づくと古い文脈を要約して制限を回避する「Context compaction(ベータ版⁠⁠」が導入されました。

またClaude Codeには、コードベースのレビューといった読み取り負荷の高いタスクを並行処理する「Agent teams」が、リサーチプレビューとして追加されました。Lydia Hallie氏によれば、本機能は単一のエージェントが順番に働くのではなく、⁠リーダー」が複数の「チームメイト」に調査・デバッグ・構築といった仕事を委譲して、チームメイト同士が互いに連携(コーディネーション)しながら、自律的に作業を進められるとのことです。なお、各エージェントの作業画面は、Shift+↑/↓キー(またはtmux)で切り替え、個別に制御することが可能です。

提供形態

Claude Opus 4.6はclaude.ai、API、主要クラウドプラットフォームですでに利用可能です。API版の価格は100万トークンあたり入力5ドル・出力25ドルで据え置かれますが、プロンプトが200kトークンを超える場合に限り、より高単価なプレミアム価格(入力10ドル・出力37.50ドル)が適用されます。

GPT‑5.3‑Codex

OpenAIは2026年2月5日、これまででもっとも有能なエージェンティック・コーディングモデル「GPT-5.3-Codex」を発表しました。CEOのSam Altman氏は、ベンチマークの数値以上に「大きな一歩前進である」手応えを語っています。処理速度は25%高速化し、同じタスクを従来より少ないトークンで完了できるとしています。この飛躍的な性能と効率性を支えているのが、NVIDIAとの強力なパートナーシップです。このモデルはNVIDIA GB200 NVL72システム向けに共同設計され、同システムを用いてトレーニングおよび提供されています。また今回のモデル開発において特筆すべき点は、このモデルの初期バージョンを用いて自身のトレーニングのデバッグやデプロイ管理、テスト結果の診断を行い、開発自体を加速させたことです。Altman氏は「GPT-5.3-Codexを使うことで、リリースをどれほど加速できたかを見るのは驚異的だった」とも述べています。

卓越したコーディング能力

リリースにあわせて提示されたベンチマークにおいて業界最高水準を記録しています。GPT-5.3-Codex (xhigh)において、SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%、OSWorld-Verifiedで64.7%という数値が紹介されています。事例として、ダイビングやレーシングのゲームを一般的な指示のみで自律的に改良したほか、ランディングページ作成においても、割引表示やカルーセル実装など本番環境に適した実用的な判断を自発的に行ったことが挙げられています。

さらに、専門知識が必要な社内業務においてもGPT-5.2に匹敵する性能を示し、金融分析やトレーニング資料の作成といった高度なタスクをこなせることが述べられています。OpenAI内部では、エンジニアリングチームがバグ特定やキャッシュヒット率の要因究明に活用し、データサイエンティストがログ分析に用いるなど、既に具体的かつ高度な実戦投入が進んでいるそうです。

セキュリティとリスク管理の強化

System Cardでは、生物学とサイバーセキュリティに関する回答・作業の遂行能力について高い水準(High capability)を持つ一方、AIの自己改善に関してはそれ未満としています。特にサイバーセキュリティは初のHighとして扱われるようになりました。モデルの能力の高まりに伴う悪用リスクにも備えるため、防御目的での活用を後押ししつつ悪用を抑える認証(本人確認)ベースの枠組み「Trusted Access for Cyber」を試験運用として開始しました。

このTrusted Access for Cyberでは、高リスクになり得るサイバー用途でモデルを使う際に、本人確認済みユーザー(chatgpt.com/cyber)や企業、招待制プログラムの研究者/チームに対して、より強力なサイバー機能へのアクセスを提供します。あわせて、オープンソースや重要インフラの防御強化を目的に、Cybersecurity Grant Programを通じて総額1000万ドルのAPIクレジット提供も進めています。

Codexアプリ⁠性格設定とステアリング

Codexアプリの機能も改善されています。Codexはタスク実行中に進捗をこまめに共有し、ユーザーはその途中で追加指示を出して方針を微調整(ステアリング)できます。Codexアプリの「Settings > General > Follow-up behavior」から、作業中のやり取りの挙動を設定できるとしています。また、対話のトーンをFriendly/Pragmaticから選択でき、好みに合わせて同僚感のある応答スタイルに切り替えられるそうです。

提供形態

GPT-5.3-Codexは、有料のChatGPTプランにて、Codexアプリ、CLI、IDE拡張機能、ウェブで利用可能です。APIアクセスは準備中です。


最近のコーディングエージェントを使った開発スタイルに関して、この1年の変化を振り返る投稿を見かけたので、コラムとしてあわせて紹介します。

おすすめ記事

記事・ニュース一覧