OpenAI、画像生成モデルAPI「gpt-image-1.5」を発表 ——新しい画像生成・編集用ページChatGPT Imagesも提供開始

OpenAIは2025年12月16日、これまで同社が提供していた画像生成モデルから大幅に能力を向上させた新しい画像生成モデルとそのAPI「gpt-image-1.5」を発表した。あわせて、ChatGPT内に新しい画像生成・編集用のページ「ChatGPT Images」を導入した。

gpt-image-1.5は、指示追従性と編集精度の向上、密度の高いテキストレンダリング、質感や細部表現の改善、そして従来比で最大4倍の生成高速化を特徴としている。入力画像のライティングや構図、人物の顔立ちといった重要要素を保持しつつ指定部分のみを正確に変更できるため、複数回の編集でも一貫した結果を得やすいという。

今回のgpt-image-1.5の発表にあわせて、ChatGPTのサイドバーに「Images（画像⁠）⁠」という専用ページが用意された。このページでは画像生成や写真の編集にも利用できるが、プリセットのスタイルや、トレンドに合わせて更新される発見（テーマ）が多数用意されている。このスタイルや発見から1つ選んで写真を添付することで、自動的に通常のChatGPTのページに遷移し、プロンプトと写真が入力されて画像が生成される仕組みとなっている。

なお、日本語を含む多言語への対応も強化はされているが、日本語の文字列を明示していない大雑把なプロンプトで確認した限りでは、日本語テキストの描画品質がところどころの文字でまだ微妙な品質にみえた（後述の「テキストの扱い」までは確認していないので、注意が必要⁠）⁠。OpenAIは今回のアップデートは大きな一歩だが、今後もよりきめ細かな編集や、より豊かで詳細な出力を、多くの言語にわたって実現していく余地が残されていると述べている。

「Gpt-image-1.5 Prompting Guide」では、gpt-image-1.5を用いた画像生成・編集におけるプロンプト設計と具体的な事例をまとめている。そのうち基礎的な内容は以下のとおり。

構造＋ゴール：背景→被写体→重要ディテール→制約という一貫した構造と画像の用途を明示し、長文ではなくラベル付き見出しや改行で整理することで、モデルに求めるモードと完成度を伝える。
具体性と品質：素材・形状・テクスチャ・メディアやライティング条件を具体的に書き、必要な範囲でフィルムグレイン（微細な粒子状の質感）やタッチなどの品質を追加し、抽象的な形容詞よりもレンズや光条件を指定する。
レイテンシと忠実度のバランス：大量生成やレイテンシ重視のユースケースではまずquality="low"から試す（多くの場合、低品質設定でも、これまでよりも画質を保ちつつ生成速度を大幅に向上している⁠）⁠。
構図の明示：クローズアップかワイドか、俯瞰かアイレベルかといった視点やライティング、ムード、ロゴやテキストの配置を具体的に指定し、望むレイアウトをプロンプトで制御する。
変更点と保持要素の区別：「Xだけ変更する」「⁠それ以外はすべてそのままにする」といった表現で、変更する部分と維持すべき部分を明示する。
テキストの扱い：画像内テキストは引用符や大文字で示し、フォントスタイルやサイズ、色、配置を具体的に記述する。難しい綴りは一文字ずつ明示する（スペルアウトする）ことで文字精度を高める。
複数の画像入力：複数画像には「Image 1: ...」「⁠Image 2: ...」のように役割を与え、「⁠Image 1のスタイルをImage 2に適用する」など変換関係を明示する。
過度の要求ではなく反復：最初から複雑な要求を一度に投げるのではなく、まずベース画像を生成し、その後「光を暖かくする」など小さな変更指示を段階的に与えるほうが安定した結果を得やすい。

gpt‑image‑1.5による新しいChatGPT Imagesは、すべてのChatGPTユーザーに向けて順次展開されているが、BusinessおよびEnterpriseプランの場合には後日提供予定となっている。

APIとしてのgpt-image 1.5は、コストとレイテンシが「画像トークン数」に比例する。画像出力は専用の「image output tokens」としてカウントされ、画像サイズやquality設定（low / medium / high / auto）によって必要トークン数が変化する。input_fidelityパラメータでhigh"を指定すると、入力画像トークン数が増加しコストにも影響するが、入力画像の細部をより忠実に保持しながら編集や合成を行うことができるとのこと（gpt-image-1.5では「最初の5枚」の入力画像が高忠実度で扱われる⁠）⁠。