OpenAIは2026年4月21日、最先端の画像生成モデルを発表した。ChatGPTでは
Introducing ChatGPT Images 2.
— OpenAI (@OpenAI) April 21, 20260
A state-of-the-art image model that can take on complex visual tasks and produce precise, immediately usable visuals, with sharper editing, richer layouts, and thinking-level intelligence.
Video made with ChatGPT Images pic.twitter. com/ 3aWfXakrcR
OpenAIは、ChatGPT Images 2.
ThinkingまたはProモデルでは、画像生成前に計画を立てながら推論し、より複雑な指示や構成にも対応できる。ウェブ検索やアップロード資料の変換も行え、最大8点の出力を一度に生成できるとしている。
Made with ChatGPT Images 2.
— OpenAI (@OpenAI) April 21, 20260 pic. twitter. com/ qaahxpJ6hK
外部評価でも高いスコアが報告されている。Arena.
This is what I’ve been cooking in the past 4 months . GPT Image 2 is over a massive 240 elo jump over the second place model, marking the biggest jump bigger than the rest of the leaderboard combined https://
— Boyuan Chen (@BoyuanChen0) April 21, 2026t. co/ vssPj6bE5L
特に、日本語を含む非ラテン文字のレンダリング能力が向上しているのに注目したい。OpenAIは、日本語を含む非英語テキストの描画が大きく改善し、単に文字を表示するだけでなく、言語をデザインの一部として自然に扱えるレベルに達したとしている。
作例としては、日本語のセリフやタイトルを取り込んだカラー版の少年漫画、日本語を含む広告やポスター、多言語タイポグラフィを組み込んだビジュアルなどを示している。
図解、インフォグラフィック、チャート、漫画、複数コマの場面構成といった画像生成でも実用性が高まったとしている。小さなテキストやアイコン、UI要素、密度の高い構図、微妙なスタイル制約の描画精度も向上し、APIでは最大2K解像度の出力に対応する。アスペクト比も3:1から1:3までサポートし、バナー、プレゼン資料、ポスター、モバイル向け画面など、用途に応じて使い分けやすくなっているとのこと。ただし、APIにおける2K超の出力は現在ベータ扱いで、状況によっては一貫性のない結果が生じる可能性があるという。
Stronger Across Languages
— OpenAI (@OpenAI) April 21, 2026
ChatGPT Images 2.0 can produce images with non-English text that’s not only rendered correctly but with language that flows coherently.
This makes the model more globally useful and helps people create visuals that work in the languages they actually… pic.twitter. com/ 51k3xScOXm
なお、折り紙のガイドやルービックキューブのように、物理世界を完全かつ一貫して捉える必要がある場面には課題が残るという。隠れた面や斜めの面に現れるべきもの、砂粒のような極めて高密度で反復するもの、正確な矢印やラベル、図表といった表現には限界があるとしている。
安全性の面では、プロンプトと画像作成の両方で機能する多層的な保護システムを導入している。Thinkingモードでは危険な依頼をそのまま通さず、安全な内容に変換するSafe Completionsも用いている。さらに、C2PAメタデータへの準拠や電子透かしの統合により、コンテンツの透明性を高めている。詳しくはシステムカードを参照のこと。