Claude Opus 4.6は、アナリストが数週間を要する財務モデル構築やM&A分析といった実務タスクにおいて、Sonnet 4.5比で23%ポイント以上の改善を記録しました。経済的価値を測るGDPval-AAでもGPT-5.2、前モデルOpus 4.5を上回ったほか、自律型コーディング評価Terminal-Bench 2.0で65.4%、自律操作タスクを評価するOSWorldで72.7%、そのほか推論テストHumanity’s Last Examや検索能力を測るBrowseCompのすべてにおいて前モデルを大幅に上回る結果を示しています。
高度な分析能力はセキュリティ分野でも発揮され、コードを読み解く推論によってタスク特化の周辺実装(custom scaffolding)や特殊なプロンプトに頼らなくても高深刻度の脆弱性を見つけられると報告されています。これまでに500件以上の高深刻度脆弱性を発見・検証し、順次報告とパッチ適用を進めているとのことです。こうした能力のリスクに備え、悪用検知の仕組みや対応フローも強化されました。(詳細は上記にも挙げているEvaluating and mitigating the growing risk of LLM-discovered 0-daysを参照のこと)。また、長文脈処理においては「Context Rot(情報の消失)」を劇的に改善しており、長文脈の情報検索(MRCR v2)ではSonnet 4.5の18.5%に対し76%という高い精度を記録しています(1Mトークン比)。
ツール統合と開発者向け機能
ユーザーの実務環境への統合や開発者向けの機能についても強化が図られています。
CoworkおよびOfficeツール連携
フォルダ単位でファイルを分析する「Cowork」や、行動前の計画立案・非構造化データの構造化・複数ステップの一括処理などをサポートする「Claude in Excel」に加え、リサーチプレビューとして「Claude in PowerPoint」が登場しました。レイアウトやフォント、スライドマスターを読み取りブランドを維持した上で、テンプレートや記述に基づくスライド作成が可能になっています。なお、PowerPoint連携はMax/Team/Enterpriseプラン限定の機能とのことです。
Claude Code now supports agent teams (in research preview)
Instead of a single agent working through a task sequentially, a lead agent can delegate to multiple teammates that work in parallel to research, debug, and build while coordinating with each other.
Claude Opus 4.6はclaude.ai、API、主要クラウドプラットフォームですでに利用可能です。API版の価格は100万トークンあたり入力5ドル・出力25ドルで据え置かれますが、プロンプトが200kトークンを超える場合に限り、より高単価なプレミアム価格(入力10ドル・出力37.50ドル)が適用されます。
System Cardでは、生物学とサイバーセキュリティに関する回答・作業の遂行能力について高い水準(High capability)を持つ一方、AIの自己改善に関してはそれ未満としています。特にサイバーセキュリティは初のHighとして扱われるようになりました。モデルの能力の高まりに伴う悪用リスクにも備えるため、防御目的での活用を後押ししつつ悪用を抑える認証(本人確認)ベースの枠組み「Trusted Access for Cyber」を試験運用として開始しました。
このTrusted Access for Cyberでは、高リスクになり得るサイバー用途でモデルを使う際に、本人確認済みユーザー(chatgpt.com/cyber)や企業、招待制プログラムの研究者/チームに対して、より強力なサイバー機能へのアクセスを提供します。あわせて、オープンソースや重要インフラの防御強化を目的に、Cybersecurity Grant Programを通じて総額1000万ドルのAPIクレジット提供も進めています。
Codexアプリ:性格設定とステアリング
Codexアプリの機能も改善されています。Codexはタスク実行中に進捗をこまめに共有し、ユーザーはその途中で追加指示を出して方針を微調整(ステアリング)できます。Codexアプリの「Settings > General > Follow-up behavior」から、作業中のやり取りの挙動を設定できるとしています。また、対話のトーンをFriendly/Pragmaticから選択でき、好みに合わせて同僚感のある応答スタイルに切り替えられるそうです。