フロンティアモデル「Claude Opus 4.6」および「GPT-5.3-Codex」がリリース ——ソフトウェア開発はAgentic Engineeringへ

2026年2月5日、AnthropicはClaude Opus 4.6を発表しました。同日、OpenAIもGPT‑5.3‑Codexを発表しました。これらのモデルは両社のフロンティアモデルです。同日にリリースされたため、今回は一緒に取り上げます。

Claude Opus 4.6

Anthropicは2026年2月5日、コーディング能力と推論能力を大幅に強化した「Claude Opus 4.6」を発表しました。通常は200Kのコンテキストウィンドウに対応し、ベータとしてOpusクラスとして初めて最大1Mトークンまで利用可能です。最大128Kトークンの出力にも対応します。

Introducing Claude Opus 4.6. Our smartest model got an upgrade.

Opus 4.6 plans more carefully, sustains agentic tasks for longer, operates reliably in massive codebases, and catches its own mistakes.

It’s also our first Opus-class model with 1M token context in beta. pic.twitter.com/L1iQyRgT9x
— Claude (@claudeai) February 5, 2026

性能はほぼ全体で向上

Claude Opus 4.6は、アナリストが数週間を要する財務モデル構築やM&A分析といった実務タスクにおいて、Sonnet 4.5比で23%ポイント以上の改善を記録しました。経済的価値を測るGDPval-AAでもGPT-5.2、前モデルOpus 4.5を上回ったほか、自律型コーディング評価Terminal-Bench 2.0で65.4%、自律操作タスクを評価するOSWorldで72.7%、そのほか推論テストHumanity’s Last Examや検索能力を測るBrowseCompのすべてにおいて前モデルを大幅に上回る結果を示しています。

高度な分析能力はセキュリティ分野でも発揮され、コードを読み解く推論によってタスク特化の周辺実装（custom scaffolding）や特殊なプロンプトに頼らなくても高深刻度の脆弱性を見つけられると報告されています。これまでに500件以上の高深刻度脆弱性を発見・検証し、順次報告とパッチ適用を進めているとのことです。こうした能力のリスクに備え、悪用検知の仕組みや対応フローも強化されました。（⁠詳細は上記にも挙げているEvaluating and mitigating the growing risk of LLM-discovered 0-daysを参照のこと⁠）⁠。また、長文脈処理においては「Context Rot（情報の消失⁠）⁠」を劇的に改善しており、長文脈の情報検索（MRCR v2）ではSonnet 4.5の18.5%に対し76%という高い精度を記録しています（1Mトークン比⁠）⁠。

ツール統合と開発者向け機能

ユーザーの実務環境への統合や開発者向けの機能についても強化が図られています。

CoworkおよびOfficeツール連携

フォルダ単位でファイルを分析する「Cowork」や、行動前の計画立案・非構造化データの構造化・複数ステップの一括処理などをサポートする「Claude in Excel」に加え、リサーチプレビューとして「Claude in PowerPoint」が登場しました。レイアウトやフォント、スライドマスターを読み取りブランドを維持した上で、テンプレートや記述に基づくスライド作成が可能になっています。なお、PowerPoint連携はMax/Team/Enterpriseプラン限定の機能とのことです。

Effort（思考リソース）制御

開発者はモデルの思考リソースをLow/Medium/High/Maxの4段階で調整可能になりました。モデルが単純なタスクで考えすぎる傾向がある場合は、デフォルトのHighからMediumへの引き下げが推奨とされています。

高度な自律機能とコンテキスト管理

自律的に思考深度を調整する「Adaptive thinking」や、設定された閾値に近づくと古い文脈を要約して制限を回避する「Context compaction（ベータ版⁠）⁠」が導入されました。

またClaude Codeには、コードベースのレビューといった読み取り負荷の高いタスクを並行処理する「Agent teams」が、リサーチプレビューとして追加されました。Lydia Hallie氏によれば、本機能は単一のエージェントが順番に働くのではなく、「⁠リーダー」が複数の「チームメイト」に調査・デバッグ・構築といった仕事を委譲して、チームメイト同士が互いに連携（コーディネーション）しながら、自律的に作業を進められるとのことです。なお、各エージェントの作業画面は、Shift+↑/↓キー（またはtmux）で切り替え、個別に制御することが可能です。

Claude Code now supports agent teams (in research preview)

Instead of a single agent working through a task sequentially, a lead agent can delegate to multiple teammates that work in parallel to research, debug, and build while coordinating with each other.

Try it out today by… pic.twitter.com/vi7lUJDOTi
— Lydia Hallie ✨ (@lydiahallie) February 5, 2026

提供形態

Claude Opus 4.6はclaude.ai、API、主要クラウドプラットフォームですでに利用可能です。API版の価格は100万トークンあたり入力5ドル・出力25ドルで据え置かれますが、プロンプトが200kトークンを超える場合に限り、より高単価なプレミアム価格（入力10ドル・出力37.50ドル）が適用されます。

コラム⁠：Claude Opus 4.6を16並列で「Cコンパイラ」を自律開発

Anthropicの研究者Nicholas Carlini氏が、「⁠agent teams」と呼ぶ自作ハーネスでClaude Opus 4.6を16並列運用し、Rust製のCコンパイラをゼロから開発させる実験を行いました。約2000回のClaude Codeセッション／約2万ドルをかけ、開発中はインターネット接続なしのクリーンルーム環境で、一部はGCCにフォールバックしつつLinux 6.9やDoomをビルドできる10万行規模のコンパイラに到達したことを報告しています。

Building a C compiler with a team of parallel Claudes - Anthropic Engineering Blog

実験から得られた教訓と限界として、以下のことが挙げられています。

テストの質が肝：人間が監視しないため、検証環境が不十分だとAIは「間違った問題」を解き続けてしまいます。
並列化の壁：全員が同じバグで止まらないよう、既存のGCCを「正解（既知の正解コンパイラ⁠）⁠」として使い、カーネルのコンパイル対象を切り分けて原因箇所を絞り込む工夫が必要でした。
リスクと限界: 驚異的な成果ですが、生成コードの効率は低く、修正が新たなバグを生む限界も露呈したと言います。「⁠人間が検証していないコード」が世に出るリスクへの懸念も示されています。

コラム⁠：AIの実力を左右する「測定環境」

AIの性能を測るベンチマークテストにおいて、そのスコアは純粋な知能だけでなく、「⁠測定環境」によって大きく左右されている。AnthropicのエンジニアGian Segato氏は、Terminal-Bench 2.0でリソース割り当て／制限の設定だけでスコアが最大6%ポイント変動する可能性があることを報告しました。

Quantifying infrastructure noise in agentic coding evals - Anthropic Engineering Blog

なぜこれほど差が出るのでしょうか。理由は、評価を行うための基盤（Scaffold）などの測定環境そのものにあります。リソースが増えると、単にエラーが減るだけでなく、pandasのような重いライブラリを使用した「力技」が可能になり、測定される能力の質そのものが変わってしまうとのことです。Segato氏は、これらの環境は単なる中立的な背景ではなく、最終スコアに直接介入する「能動的な要素（active element⁠）⁠」になってしまっていると指摘します。評価設定（リソース上限の扱いなど）が文書化され、揃えられない限り、3%ポイント未満の差は懐疑的に見るべきだと述べています。

GPT‑5.3‑Codex

OpenAIは2026年2月5日、これまででもっとも有能なエージェンティック・コーディングモデル「GPT-5.3-Codex」を発表しました。CEOのSam Altman氏は、ベンチマークの数値以上に「大きな一歩前進である」と手応えを語っています。処理速度は25%高速化し、同じタスクを従来より少ないトークンで完了できるとしています。この飛躍的な性能と効率性を支えているのが、NVIDIAとの強力なパートナーシップです。このモデルはNVIDIA GB200 NVL72システム向けに共同設計され、同システムを用いてトレーニングおよび提供されています。また今回のモデル開発において特筆すべき点は、このモデルの初期バージョンを用いて自身のトレーニングのデバッグやデプロイ管理、テスト結果の診断を行い、開発自体を加速させたことです。Altman氏は「GPT-5.3-Codexを使うことで、リリースをどれほど加速できたかを見るのは驚異的だった」とも述べています。

GPT-5.3-Codex is here.

It advances both frontier coding performance and professional knowledge capabilities together in a single model.https://t.co/mAyt3snLY9 https://t.co/NIcq8AWwee
— OpenAI Developers (@OpenAIDevs) February 5, 2026

卓越したコーディング能力

リリースにあわせて提示されたベンチマークにおいて業界最高水準を記録しています。GPT-5.3-Codex (xhigh)において、SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%、OSWorld-Verifiedで64.7%という数値が紹介されています。事例として、ダイビングやレーシングのゲームを一般的な指示のみで自律的に改良したほか、ランディングページ作成においても、割引表示やカルーセル実装など本番環境に適した実用的な判断を自発的に行ったことが挙げられています。

さらに、専門知識が必要な社内業務においてもGPT-5.2に匹敵する性能を示し、金融分析やトレーニング資料の作成といった高度なタスクをこなせることが述べられています。OpenAI内部では、エンジニアリングチームがバグ特定やキャッシュヒット率の要因究明に活用し、データサイエンティストがログ分析に用いるなど、既に具体的かつ高度な実戦投入が進んでいるそうです。

セキュリティとリスク管理の強化

System Cardでは、生物学とサイバーセキュリティに関する回答・作業の遂行能力について高い水準（High capability）を持つ一方、AIの自己改善に関してはそれ未満としています。特にサイバーセキュリティは初のHighとして扱われるようになりました。モデルの能力の高まりに伴う悪用リスクにも備えるため、防御目的での活用を後押ししつつ悪用を抑える認証（本人確認）ベースの枠組み「Trusted Access for Cyber」を試験運用として開始しました。

このTrusted Access for Cyberでは、高リスクになり得るサイバー用途でモデルを使う際に、本人確認済みユーザー（chatgpt.com/cyber）や企業、招待制プログラムの研究者/チームに対して、より強力なサイバー機能へのアクセスを提供します。あわせて、オープンソースや重要インフラの防御強化を目的に、Cybersecurity Grant Programを通じて総額1000万ドルのAPIクレジット提供も進めています。

Codexアプリ⁠：性格設定とステアリング

Codexアプリの機能も改善されています。Codexはタスク実行中に進捗をこまめに共有し、ユーザーはその途中で追加指示を出して方針を微調整（ステアリング）できます。Codexアプリの「Settings > General > Follow-up behavior」から、作業中のやり取りの挙動を設定できるとしています。また、対話のトーンをFriendly/Pragmaticから選択でき、好みに合わせて同僚感のある応答スタイルに切り替えられるそうです。

提供形態

GPT-5.3-Codexは、有料のChatGPTプランにて、Codexアプリ、CLI、IDE拡張機能、ウェブで利用可能です。APIアクセスは準備中です。

コラム⁠：OpenAIが進めるAgentic Software Developmentへの移行

OpenAI共同創業者のGreg Brockman氏は2026年2月6日、ソフトウェア開発が「目の前でルネサンスを迎えている」と述べ、2025年12月以降、Codexのようなツールに一段上がるような（step functionとなる）改善が起きたと指摘しました。以前はCodexをユニットテストに使う程度だったのが、いまではほぼすべてのコードを書き、運用やデバッグも大きく担うようになり、同氏は「昨日、OpenAIの優秀なエンジニアから、12月以降で仕事が根本的に変わったと聞いた」としています。

Software development is undergoing a renaissance in front of our eyes.

If you haven't used the tools recently, you likely are underestimating what you're missing. Since December, there's been a step function improvement in what tools like Codex can do. Some great engineers at…
— Greg Brockman (@gdb) February 6, 2026

Greg Brockman氏は、こうした変化はどの企業にも共通する機会であり、導入には慎重な設計が必要だと強調。OpenAIの取り組みとしてまず3月31日までに、(1) 技術タスクではファイル編集やターミナル操作の前に、まずエージェントと対話する、(2) エージェント活用のデフォルトは「安全と明示的に評価でき、かつ多くのワークフローが追加権限なしで回る形にする」という目標を掲げています。そのうえで、(3) 社内ツールを棚卸ししてエージェントが使える形（CLIやMCP）にする、(4) コードベースをエージェント前提に整える（短時間で回せるテストを用意し、コンポーネント間の境界を明確にする⁠）⁠、(5) 生成コードのslopを許さず品質基準を保つ（マージされるコードには人間が責任を持ち、レビュー基準も人間と同等以上にする⁠）⁠、(6) 観測・追跡・ツール管理など周辺インフラを整える、といった実行項目を挙げました。あわせて(1)の具体策として、まずツールを試す時間を確保し、推進役や共有チャネル、全社ハッカソンを設けること、また(2)に向けてSkillsとAGENTS.mdを整備して知見を蓄積することも推奨しています。

コラム⁠：月1万ドルで研究を自動化⁠：OpenAI研究者のCodex活用術

OpenAIのKarel D’Oosterlinck氏は、1か月でAPIに1万ドルを投じ、Codexに数十億トークン規模の作業を回して研究を加速する運用を紹介しています。ポイントは、Codexに自分の作業手順そのものを継続的に記録・改善させる運用でした。

https://t.co/61xQpTk6Ss
— Karel (@KarelDoostrlnck) February 5, 2026

メモをCodexに書かせる: 作業中、Codexがリポジトリ内の個人フォルダにメモやヘルパーをコミットし続け、次回以降のセッションで素早く文脈に乗れるようにします。本人はそれらを読まず、あくまでCodexの記憶として効かせるのが狙いだといいます。
数億トークンによる実験と分析: 数億トークン規模で、Slackの関連チャンネル探索、議論の追跡、実験ブランチの取得や実装、ハイパーパラメーターの判断までをまとめて進めさせます。加えて、スクリーンショットやドキュメント、スプレッドシートまで辿って情報を集め、モデル挙動に関する仮説を700件以上生成した事例も挙げています（主にGPT-5.2で実施⁠）⁠。
GPT-5.3による指揮スタイル: GPT-5.3-Codexでは、1つのエージェントに相談し、そのエージェントが複数のサブエージェントを並列運用する形に移行。並列化のたびに人間がコンテキストを切り替える負担が減り、重要タスクだけは個別のサブエージェントに直接指示するそうです。
調整コストへの示唆: 会議やメールに頼らず、必要な知識を横断的に集約できることで、組織規模が大きくなるほど増える調整コストを下げられるのではないか、と問題提起しています。

最近のコーディングエージェントを使った開発スタイルに関して、この1年の変化を振り返る投稿を見かけたので、コラムとしてあわせて紹介します。

コラム⁠：Vibe CodingからAgentic Engineeringへ

Vibe Codingという言葉の名付けで知られるAndrej Karpathy氏は2026年2月4日、この概念が「1周年」として多く引用されていたことを受け、急速に変わるプログラミングスタイルについて投稿しました。

A lot of people quote tweeted this as 1 year anniversary of vibe coding. Some retrospective -

I've had a Twitter account for 17 years now (omg) and I still can't predict my tweet engagement basically at all. This was a shower of thoughts throwaway tweet that I just fired off… https://t.co/yoJPmb1xuK
— Andrej Karpathy (@karpathy) February 4, 2026

シャワー中の思いつきとして投げたVibe Codingは、当時はLLMの能力がまだ低く、週末の使い捨てプロジェクトやデモを楽しむ用途が中心だったと言います。しかし1年後の現在、LLMエージェントを介したプログラミングは、プロの現場でもデフォルトになりつつある一方で、より強い監督と精査が前提になってきたと指摘します。その狙いは、エージェントのレバレッジを得ながらも、ソフトウェア品質では一切妥協しないことです。

この新しいスタイルについて、Andrej Karpathy氏は当時の「Vibe Coding」と区別して「Agentic Engineering」という呼び名を挙げています。人間はコードを直接書く時間がほとんどなく、エージェントをオーケストレーションして監督するのが「Agentic⁠」⁠。それをうまく行うには学べる技術と専門性があり、アートとサイエンスの両面を持つという意味で「Engineering」だ、と定義しました。

Andrej Karpathy氏は2026年も、モデル層とエージェント層の双方が改善し、両者の掛け算でさらに進歩が続くことに期待を示しています。