OpenAI⁠最先端の画像生成モデル「ChatGPT Images 2.0」発表 —⁠—日本語を含む非ラテン文字のレンダリング能力も向上

OpenAIは2026年4月21日、最先端の画像生成モデルを発表した。ChatGPTでは「ChatGPT Images 2.0」として、開発者向けAPIでは「GPT Image 2」⁠gpt-image-2)として展開する。ChatGPTのリリースノートでは、無料を含む全ChatGPTプランで使える標準機能を「ImageGen 2.0」と表記している。有料プラン向けには、推論、複数出力生成、ウェブ検索などのツール利用を加えた「ImageGen 2.0 Thinking」も導入した。あわせてCodexでも画像生成機能を提供する。

OpenAIは、ChatGPT Images 2.0を最先端の画像生成モデルと位置づけている。主な強化点として、細かな指示への追従、オブジェクト同士の正確な配置、文字量の多い画像の描画、多言語対応、柔軟なアスペクト比を挙げている。また、知識カットオフを2025年12月とし、より関連性が高く文脈に沿った画像生成を行えるという。こうした強化によって画像生成が単なるレンダリングから「strategic design(戦略的なデザイン⁠⁠」へ広がり、⁠visual system」として機能すると説明している。

ThinkingまたはProモデルでは、画像生成前に計画を立てながら推論し、より複雑な指示や構成にも対応できる。ウェブ検索やアップロード資料の変換も行え、最大8点の出力を一度に生成できるとしている。

外部評価でも高いスコアが報告されている。Arena.aiは、GPT-Image-2がImage Arenaの各リーダーボードで首位を獲得し、Text-to-Imageでは2位に242ポイント差を付けたと紹介している。

特に、日本語を含む非ラテン文字のレンダリング能力が向上しているのに注目したい。OpenAIは、日本語を含む非英語テキストの描画が大きく改善し、単に文字を表示するだけでなく、言語をデザインの一部として自然に扱えるレベルに達したとしている。

作例としては、日本語のセリフやタイトルを取り込んだカラー版の少年漫画、日本語を含む広告やポスター、多言語タイポグラフィを組み込んだビジュアルなどを示している。

図解、インフォグラフィック、チャート、漫画、複数コマの場面構成といった画像生成でも実用性が高まったとしている。小さなテキストやアイコン、UI要素、密度の高い構図、微妙なスタイル制約の描画精度も向上し、APIでは最大2K解像度の出力に対応する。アスペクト比も3:1から1:3までサポートし、バナー、プレゼン資料、ポスター、モバイル向け画面など、用途に応じて使い分けやすくなっているとのこと。ただし、APIにおける2K超の出力は現在ベータ扱いで、状況によっては一貫性のない結果が生じる可能性があるという。

なお、折り紙のガイドやルービックキューブのように、物理世界を完全かつ一貫して捉える必要がある場面には課題が残るという。隠れた面や斜めの面に現れるべきもの、砂粒のような極めて高密度で反復するもの、正確な矢印やラベル、図表といった表現には限界があるとしている。

安全性の面では、プロンプトと画像作成の両方で機能する多層的な保護システムを導入している。Thinkingモードでは危険な依頼をそのまま通さず、安全な内容に変換するSafe Completionsも用いている。さらに、C2PAメタデータへの準拠や電子透かしの統合により、コンテンツの透明性を高めている。詳しくはシステムカードを参照のこと。

おすすめ記事

記事・ニュース一覧