OpenAI⁠GPT-5.6ファミリーを限定プレビュー⁠Sol/Terra/Lunaの3モデルをまずCodexとAPIで提供

OpenAIは2026年6月26日、次世代フロンティアモデル「GPT-5.6 Sol」を含むGPT-5.6ファミリーの限定プレビューを開始した。新しいファミリーは、フラッグシップモデルの「GPT-5.6 Sol⁠⁠、日常業務向けに性能とコストのバランスを取った「GPT-5.6 Terra⁠⁠、高速で低コストな「GPT-5.6 Luna」の3モデルで構成される。

GPT-5.6の限定プレビューはまず、CodexとAPIを通じて、少数の信頼できるパートナーと組織に提供している。OpenAIによると、同社は米国政府との継続的なやり取りの一環として、提供前に計画とモデルの能力を米国政府に説明した。その後、米国政府からの要請に応じて参加するパートナーの情報を共有し、限定プレビューとして開始したという。同社はGPT-5.6 Sol、Terra、Lunaを今後数週間で一般提供する計画で、近くChatGPT、Codex、APIを使う人にもより広く提供するとしている。

Sam Altman氏は、攻撃者側の視点で弱点や悪用方法を探すレッドチーミングのためにプレビュー期間を設けること自体は悪くないとしつつ、政府が顧客を選ぶ形には否定的な考えを示した。今後のモデル公開については、予測可能な枠組みに到達することを目標にしているとも述べている。

GPT-5.6では、モデル世代を示す数字と、モデルの規模感や用途の違いを示すSol、Terra、Lunaを組み合わせる新しい命名体系を導入した。Solは同社の最も高性能なモデルで、TerraはGPT-5.5に匹敵する性能を半分のコストで提供し、Lunaは大量処理向けの高速モデルで、最もコスト効率の高いモデルにあたる。API料金は100万トークンあたり、Solが入力5ドル/出力30ドル、Terraが入力2.50ドル/出力15ドル、Lunaが入力1ドル/出力6ドル。Sam Altman氏は投稿で、SolはGPT-5.5と同価格、TerraはGPT-5.5レベルの性能を半額と補足した。名称についても、Sam Altman氏は、Sol、Terra、Lunaを太陽(恒星⁠⁠、地球(惑星⁠⁠、月に対応するモデルの規模感の比喩としている

OpenAIのYu Bai氏は、TerraとLunaについて、以前の世代のmini/nanoよりフラッグシップモデルに近く、もはや「mini models」とは言いにくいと述べている

GPT-5.6 Solには、新しい推論エフォート(reasoning effort)として「max」が加わり、より長く推論できるようになる。Codexでは、単一エージェントの範囲を超えてサブエージェントを使う「ultra」モードも追加する。性能評価については、OpenAIがコーディング、バイオロジー、サイバーセキュリティの結果を示している。複雑なコマンドライン作業を測るTerminal-Bench 2.1では、GPT-5.6 Sol Ultraが91.9%、GPT-5.6 Solが88.8%となり、GPT-5.5の83.4%を上回って新しい最高水準を記録した。GeneBench v1ではGPT-5.5を上回る結果を、より少ないトークンで達成したという。

サイバーセキュリティ分野でも、OpenAIはSolを同社で最も高性能なモデルとしている。脆弱性の悪用タスクを扱う評価「ExploitBench」では、Mythos Previewに匹敵する性能を、約3分の1の出力トークンで示した。システムカードでは、モデルの能力リスクを分類する同社のPreparedness Framework上で、GPT-5.6 Sol、Terra、Lunaをサイバーセキュリティおよび生物・化学リスクの「High」能力として扱う。Highは同社のリスク分類の一つで、最上位のCriticalより一段低い区分にあたる。AIが自ら能力を高める可能性を見るAI自己改善の区分ではHighのしきい値に達しておらず、サイバーセキュリティについてもCriticalには達していないという。

安全対策については、GPT-5.6 Sol、Terra、Luna向けに、各モデルの能力に合わせた多層の安全対策を組み合わせている。危険な依頼をモデルに拒否させる訓練に加え、生成中のリアルタイムチェック、アカウント単位の確認、アクセス制御、モニタリング、利用規約に基づく対応、継続的なテストを使う。OpenAIは、専門家や外部テスターによる検証に加え、自動レッドチーミングにA100換算で70万GPU時間超を投入し、幅広い脱獄手法を自動的に探したとしている。

システムカードは、エージェント型コーディング作業における不整合行動も取り上げている。GPT-5.6 SolはGPT-5.5と比べ、ユーザーの意図や期待に反する行動を取る傾向が強い。ただし、絶対的な発生率は低いとしている。社内のエージェント型コーディング利用をもとにしたシミュレーションでは、ユーザーにとって予想外で、強く反対される可能性が高い「重大度3」の行動がGPT-5.5より多く見られたが、より高い「重大度4」に該当する行動は観測されていないという。OpenAIは、長い作業を行うコーディングエージェントとして使う場合、ユーザーが作業を監督することが重要だとしている。

API向けには、明示的なキャッシュブレークポイントと最短30分のキャッシュ寿命を含む、より予測しやすいプロンプトキャッシュも導入する。GPT-5.6以降のモデルでは、新しくキャッシュに保存する入力部分は、通常の未キャッシュ入力料金の1.25倍で課金される。キャッシュ済みの入力を再利用する場合は、引き続き90%割引が適用される。

さらにOpenAIは、Cerebrasの基盤上で動くGPT-5.6 Solを7月に最大750トークン/秒で提供する予定で、提供開始時は一部顧客向けに限るとしている。

おすすめ記事

記事・ニュース一覧