OpenAI、o3-miniと同等以上のオープンモデル「gpt-oss」をリリース ——ハーモニーレスポンス形式を扱うトークナイザーやレンダラーもオープンソースで公開

OpenAIは2025年8月5日、2つのオープンモデル「gpt-oss-120b」と「gpt-oss-20b」をリリースした。

gpt-ossはモデルアーキテクチャにMixture of Experts（MoE）を採用し、gpt-oss-120bは1170億パラメータ（アクティブパラメータは51億⁠）⁠、gpt-oss-20bは210億パラメータ（アクティブパラメータは36億）を持つ。モデルの学習においてはSTEMやコーディング、一般知識に重点を置いた、高品質で主に英語のテキストを用いたデータセットを利用したという。事後学習には、o4-miniと同様の教師ありファインチューニングと、大規模な計算資源を用いた強化学習を採用している。特に、後述のハーモニープロンプト形式で事後学習を行うことで、OpenAI Model Specに準拠し、回答生成前にCoT（思考の連鎖）を行う推論やツール利用を適切に行う能力が強化されている。

コンテキスト長は128kをサポートしている。データのトークン化には、o4-miniとGPT-4oで使われているトークナイザーのスーパーセットである「o200k_harmony」が用いられている。また、ハーモニープロンプト形式の入出力を容易に扱うためのハーモニーレンダラー（Python・Rust向け）が使われている。これらはいずれもオープンソースとして公開されている。ここでいうハーモニーとは、gpt-ossが会話構造の定義・推論出力の生成・関数呼び出しの構造化に用いる「ハーモニーレスポンス形式」を指す。この形式では、各メッセージに「role（system, developer, user, assistant, tool⁠）⁠」と「channel（final, analysis, commentary⁠）⁠」を付与することで管理している。なおchannelのfinalはユーザー向けの最終応答、analysisは思考の連鎖（CoT）など内部推論、commentaryはツール呼び出しやアクションプランに用いられる。特にanalysisやcommentaryの内容は安全基準がfinalチャンネルと異なるため、ユーザーに直接表示しないことを求めている。APIやOllamaなどのプロバイダー経由で利用する場合は自動的にハーモニーレスポンス形式への変換が行われるため、利用者が直接意識する必要はない。

OpenAI Harmony Response Format - OpenAI Cookbook

gpt-oss-120bは単一の80GB GPU上で効率的に動作し、OpenAI o4-mini相当の性能を示す。gpt-oss-20bは16GB GPUを持つデバイス上で動作可能で、o3-mini相当の性能を示している。両モデルはエージェント型タスクに最適化されており、指示への追従能力や、ウェブ検索・コード実行などのツール利用、推論機能、構造化出力の生成などの機能を備えている。また、few-shot関数呼び出しや同社のResponses APIとの互換性を持っている。さらに、モデルのカスタマイズやファインチューニングも可能。なお、oシリーズの推論モデルと同じように、gpt-oss-120b/20bはレイテンシとパフォーマンスをトレードオフする3段階（低・中・高）の推論レベル（reasoning_effort）に対応している。

gpt-oss-120b matches OpenAI o4-mini on core benchmarks and exceeds it in narrow domains like competitive math or health-related questions, all while fitting on a single 80GB GPU (or high-end laptop).

gpt-oss-20b fits on devices as small as 16GB, while matching or exceeding… pic.twitter.com/Zn2wDiWcNb
— OpenAI (@OpenAI) August 5, 2025

安全性については、化学（Chemical⁠）⁠・生物（Biological⁠）⁠・放射線（Radiological⁠）⁠・核（Nuclear）関連（CBRN）の有害データ除外や、熟慮的アライメント（deliberative alignment：出力前のリスクや安全性の検討）および指示階層（開発者とユーザーの指示を分離し、それぞれの権限に応じて応答や動作を制御する仕組み）によって強化されている。さらに、悪意のあるファインチューニングへの耐性については、リスク評価・安全性基準を定めているPreparedness Frameworkに基づいて専門家グループとともに事前に評価・テストを行い、重大なリスクが顕在化するレベルには至らないことを確認したという。安全性向上のため、50万ドルの賞金をかけたRed Teaming Challengeを開催することも案内している。

なお、gpt-ossはOpenAIの製品やAPIにシステムレベルで組み込まれている保護機能を備えているわけではないため、場合によっては追加の安全対策の検討も必要になることを注意している。特に、gpt-ossは医療専門家の代替や診断・治療目的には利用できないと明記されている。

gpt-ossのモデルカードが公開されているので、詳しくはそちらを参照のこと。上述のリスク評価についてはarXivで詳細な説明が公開されている。

gpt-ossのplaygroundが公開されており、gpt-oss-120bおよびgpt-oss-20bのデモを体験できる。OpenAIは、gpt-ossがビデオゲームをどのように構築するかを紹介している。

Want to see our open models in action?

Watch how gpt-oss builds a video game—using tools step-by-step within chain-of-thought reasoning 👾🍓 pic.twitter.com/WNeV0cpwM2
— OpenAI (@OpenAI) August 5, 2025

両モデルはApache 2.0ライセンスの下で公開され、Hugging Faceからダウンロードできる。gpt-oss-120b/20bはハーモニーレスポンス形式でのみ正しく動作するため、独自に推論環境を構築する場合はプロンプトや応答をその形式に変換しなければならない。それにはTransformersのchatテンプレートやopenai-harmonyパッケージ等を利用する必要がある。gpt-ossの実行環境としてはTransformers、vLLM、PyTorch/Triton、Ollama、LM Studioなどが案内されている。

利用方法はgpt-ossのCookBookにまとまって紹介されている。Ollamaを使う場合やvLLMを使う場合を見ると、gpt-oss-20bを動作させるのに16GB以上のVRAMが、gpt-oss-120bを動作させるのに60GB以上のVRAMが必要とされている。また、NVIDIA TensorRT-LLMを使う場合は、gpt-oss-20bを動作させるのに20GB以上のVRAMを持つNVIDIA GPUを必要とすることが記載されている。

gpt-ossがリリースされたことを記念して、OpenAI Open Model Hackathonが開催される。期間は本日から2025年9月11日まで。またHuggingFace協力のもと、研究者や学生がgpt-ossを調査するために50ドル分のHuggingFaceクレジットを先着500名に提供している。

gpt-ossシリーズは今後、APIへの対応を検討しているという。