OpenAI⁠GPT‑5をリリース —⁠—これまでで最高の性能で⁠ハルシネーションの大幅低減も達成⁠Codex CLIでもGPT-5が利用可能に

OpenAIは2025年8月7日、これまでで最も優れたAIシステムであるGPT‑5を発表した。GPT‑5はコーディング、数学、文章作成、ヘルスケア、視覚認識などで最先端の性能を示し、統合システムとして質問の性質に応じて即時回答と推論を使って回答するかを自動で切り替える。

GPT‑5は高速応答用モデルgpt‑5‑mainと複雑問題用モデルgpt‑5‑thinking、およびリアルタイムルーターで構成される。ルーターは会話の種別、問題の複雑さ、ツールが必要か、ユーザーの明示的意図(例「深く考えて⁠⁠)などを考慮し、動的にモデルを選択する。モデル切替や選好、正確性などは継続学習して改善される。使用上限に達すると各系のmini版(gpt‑5‑main‑mini、gpt‑5‑thinking‑mini)に自動的に切り替わる(システムカードによると、将来的に単一モデルへ統合する計画が示されている⁠⁠。

またProプラン加入者には、拡張推論版のGPT‑5 Pro(gpt‑5‑thinking‑pro)も提供する。これは極めて難解な数学・科学・医療・コーディング領域で、網羅性と正確性を最大化するものとなる。

なお、ChatGPTの新しいデフォルトはGPT‑5となる(GPT‑4o、o3、o4‑mini、GPT‑4.1、GPT‑4.5の利用は廃止される⁠⁠。有料プランのユーザーはモデルピッカーから「GPT‑5 Thinking」を選択するか、プロンプトに「より深く考えてください」などと入力することで、推論を有効にできる。

ChatGPT上のGPT-5新モデルは、以下の表に示す旧モデルからの後継として位置づけられている。

旧モデル GPT‑5モデル
GPT‑4o gpt‑5‑main
GPT‑4o‑mini gpt‑5‑main‑mini
OpenAI o3 gpt‑5‑thinking
OpenAI o4‑mini gpt‑5‑thinking‑mini
OpenAI o3 Pro gpt‑5‑thinking‑pro

以下、旧モデルからの主要な改善点を整理する。

入出力のコンテキスト
入力コンテキストでは最大272Kトークン、推論展開と最終回答に最大128Kトークンの合計40万トークン規模のウィンドウを利用できる。これにより、複数ファイルを含むリポジトリ横断、長大資料の整合性確認や要約、インターネットを利用した検索結果や複数ドキュメントを一括で比較・統合といった長距離依存タスクを単一ラウンドで処理しやすくなった。長コンテキスト性能評価(BrowseComp Long Context、128K〜256K入力)で89%正答を記録し、従来のGPT‑4.1やo3と比較して長文範囲の情報回収・再構成で高い再現性を示している。
事実性⁠長文正確性
実運用プロンプトでGPT‑4o比で事実誤認を約20%低減。thinkingモードではo3比で約70%低減。長文全体の事実整合性評価(LongFact)や回答内の主張単位ごとの事実一致率評価(FActScore)でハルシネーション率を約1/5に(約80%低減)抑制。画像コンテキストが欠落した状態で過剰に確信する割合(CharXiv画像除去テスト)が86.7%(o3)から9%(gpt-5-thinking)へ、会話集合での欺瞞率を4.8%(o3)から2.1%(gpt-5-thinking)に低減した。このように、GPT-5では大幅にハルシネーション率を低下させ、事実性の向上を実現している。
迎合性とユーザー体験調整
ユーザーの誤情報への不用意な同意は18%から8%未満まで低減し、過度の迎合は14.5%から6%未満まで低減した(GPT‑4o比⁠⁠。また、過剰な絵文字使用を抑制しつつ指示遵守とカスタム指示追従を改善したという。
主要ベンチマークと推論効率
主な高難度ベンチマーク結果も報告されている。たとえば、AIME 2025(数学競技)において94.6%を達成、SWE‑bench Verified(OSSコード修正)において74.9%(旧:o3 69.1% / 出力トークン22%減 / ツール呼び出し45%減)を達成している。また精度向上とともに、推論効率も改善もしている(出力トークン50〜80%削減⁠⁠。

安全性については、従来の単純拒否(hard refusal)の挙動から、安全性と有用性を同時に最適化するsafe‑completion学習へ移行したことで不要な全面拒否を減らしつつ有用性を保持した。これにより、危険な具体手順や高精度な実行計画を抑制しながら抽象度の高い助言・注意喚起・代替方策を残すバランスが取られるという。また多層防御でリスクを段階的に低減し、gpt‑5‑thinkingは同社がリスク評価に使っているPreparedness FrameworkにおいてHigh capabilityに分類されたことを報告している。なお、ヘルスケア領域でもGPT‑5は評価されておりパートナーとしての活用を勧めているが、医療専門家の代替ではないことに注意が必要である。

APIとしては、推論系(gpt‑5 / gpt‑5‑mini / gpt‑5‑nano)と非推論gpt‑5‑chat‑latestを用途とコストで使い分けることになる。また、reasoning_effort(minimal / low / medium / high)で推論計算量とレイテンシを調整できるminimalはまた別の軽量推論モデル⁠⁠。料金はサイズ別に段階化され、prompt cachingやBatch APIで追加のコスト最適化が可能となっている。

GPT‑5はすべてのユーザーに提供され、EnterpriseとEduは1週間後に提供される予定。無料版と有料プランの差は送信メッセージの上限数にあり、上限に達するとGPT‑5 miniへ自動に切り替わる。ProプランではGPT‑5無制限とGPT‑5 Proアクセスを含み、Team/Enterprise/Eduは組織利用に十分な上限が設定される。

また、すでにたくさんのツールとGPT-5が統合されていることが、各社から発表されている。以下の𝕏のスレッドにはCursor、Lovable、JetBrains、Notion、CodeRabbitなどの声が、またVS CodeGitHubからもGPT-5に関しての統合の話が挙がっている。

さらに、ターミナルでAIを使うためのCodex CLIが同日、バージョン0.15.0でGPT‑5をデフォルトモデルにした(現在は0.19.0⁠⁠。Plus/Pro/TeamのChatGPTアカウントでサインするだけで、そのままプラン内使用量として扱われる形に移行した(レート制限は今後の利用状況を見てプラン別に設定予定⁠⁠。APIキーによる従量課金を続けたい場合は、従来どおりAPIキーを設定すればよい。ChatGPTプランへ切り替える際はnpm i -g @openai/codexで更新して、環境変数からAPIキーを外して、codex login「Sign in with ChatGPT」を選ぶ流れになる。また、ターミナルUIも更新され、GPT‑5デフォルト利用とサインイン導線が明確になった。

おすすめ記事

記事・ニュース一覧