Google⁠一貫性を維持した画像編集を可能にする「Gemini 2.5 Flash Image」リリース

Googleは2025年8月26日、新しい画像生成・編集モデル「Gemini 2.5 Flash Image」をリリースした。今回のモデルを使うことで、編集後も人物やペットの特徴が一貫して維持できるようになった。なお公式発表前は、nano-banana(🍌)というモデル名で言及されていたもの。

今回のモデルで追加・強化された主な機能は以下のとおり。

  • 人物やペットの顔や特徴を保ったまま、ポーズ・照明・環境・スタイルが異なる画像でも一貫性を維持できる(Character consistency⁠⁠。
  • 複数の写真や要素を組み合わせて、最大3つまでの入力から独自のクリエイティブな合成画像を作成できる(Creative composition⁠⁠。
  • 画像の一部だけを指定して、何度でも細かく編集できる。特定の芸術的スタイルやデザイン、質感を他の画像に転写し、元の被写体の形やディテールを保ったまま変換できる(Design application⁠⁠。
  • Geminiの世界知識・論理推論により、画像の前後の状況やストーリー展開を推測して生成・編集できる(Real-world reasoning⁠⁠。

このモデルはGeminiアプリやGoogle AI Studioでで無料で試すことができ、Gemini APIでも1画像あたり0.039ドルで利用可能になっている。

Geminiアプリでの使い方は、Geminiアプリで写真を選び、編集したい内容を入力するだけ。編集した画像を再度Geminiにアップロードして、動画に変換することもできる。なお編集・生成された画像には、AI生成であることを示す目に見えるウォーターマーク(画像右下にマーク)と、Google独自のSynthIDによる目に見えないウォーターマークが自動で付与される。


Geminiの画像生成・編集機能を最大限に活用するためには、プロンプト設計が重要である。公式ブログによれば、以下の6要素を盛り込むことで、より高度な画像生成が可能となる。

  1. 主題(Subject): 画像に登場する人物や物体を具体的に記述する。例:「小さな光るマッシュルームの妖精」⁠ふわふわの三毛猫が小さな魔法使いの帽子をかぶっている」
  2. 構図(Composition): 写真のフレーミングや視点を指定する。例:「極端なクローズアップ」⁠ワイドショット」⁠ポートレート」
  3. 動作(Action): 何が起きているかを明確にする。例:「コーヒーを淹れている」⁠魔法をかけている」⁠野原を走っている」
  4. 場所(Location): シーンの舞台を指定する。例:「火星の未来的なカフェ」⁠錬金術師の書斎」⁠夕暮れの草原」
  5. スタイル(Style): 画像全体の雰囲気や美術的な特徴を指定する。例:「3Dアニメーション」⁠フィルムノワール」⁠水彩画」⁠フォトリアル」⁠1990年代のスタジオ写真」

また既存画像を編集する際の編集指示では、残したいもの・削除したいもの・変更したいものを明確に指定するのが推奨されている(例:「男性のネクタイを緑色に変更」⁠背景の車を削除⁠⁠。

プロンプト例としては、次のものが挙げられている。

キャラクターの一貫性を保つ
  1. "A whimsical illustration of a tiny, glowing mushroom sprite. The sprite has a large, bioluminescent mushroom cap for a hat, wide, curious eyes, and a body made of woven vines."
    ⁠小さくて光るマッシュルームの妖精の幻想的なイラスト。その妖精は帽子として大きな生物発光性のマッシュルームのかさをかぶり、目が大きくて好奇心に満ちており、体は編まれたつるでできている。)

  2. "Now, show the same sprite riding on the back of a friendly, moss-covered snail through a sunny meadow full of colorful wildflowers."
    ⁠今度は、同じ妖精が親しみやすい苔に覆われたカタツムリの背中に乗り、色とりどりの野花が咲く晴れた草原を進んでいる様子を見せてください。)

局所的な編集
  1. "A high-quality photo of a modern, minimalist living room with a grey sofa, a light wood coffee table, and a large potted plant."
    ⁠グレーのソファ、明るい木製のコーヒーテーブル、大きな鉢植えの植物がある、モダンでミニマルなリビングルームの高品質な写真。)
  2. "Change the sofa's color to a deep navy blue."
    ⁠ソファの色を濃いネイビーブルーに変更してください。)
  3. "Now, add a stack of three books to the coffee table."
    ⁠次に、コーヒーテーブルの上に本を3冊積み重ねて追加してください。)
概念の合成
  1. "Generate a photorealistic picture of an astronaut in a helmet and full suit."
    ⁠ヘルメットと完全な宇宙服を着た宇宙飛行士のフォトリアルな画像を生成してください。)

  2. "A picture of an overgrown basketball court in the rainforest."
    ⁠熱帯雨林の中にある草木が生い茂ったバスケットコートの画像。)

  3. "Show the astronaut dunking a basketball in this court."
    ⁠そのコートで宇宙飛行士がバスケットボールでダンクシュートしている様子を見せてください。)

スタイル転写
  1. "A photorealistic image of a classic motorcycle parked on a city street."(都市の通りに停められたクラシックなオートバイのフォトリアルな画像。)

  2. "Apply the style of an architectural drawing to this image."
    ⁠この画像に建築図面のスタイルを適用してください。)

論理⁠推論を活用した生成
  1. "Generate an image of a person standing holding a 3 tiered cake."
    ⁠3段のケーキを持って立っている人物の画像を生成してください。)

  2. "Generate an image showing what would happen if they tripped."
    ⁠その人物がつまずいた場合に何が起こるかを示す画像を生成してください。)

制限事項・注意点として、以下のことに触れられている。

  • スタイライズ(作風変換)は一貫性に欠ける場合があり、意図しない結果になることもある。
  • 文字描画は誤字や複雑なタイポグラフィに弱く、正確なテキスト生成が難しい場合がある。
  • キャラクターの特徴保持は高精度だが、完全ではなく、細部が変化することもある。
  • アスペクト比の維持が難しく、指定したサイズや比率通りにならない場合がある。

以下、2025年8月28日追記:

GoogleはGemini 2.5 Flash Imageの使い方として、いくつか興味深い使い方を紹介している。

  • ドラッグ&ドロップによる注釈(Drag and drop annotations)
  • スケッチの色付け(Coloring sketches)
  • 顔写真(Headshots)
  • カメラ視点の変更(Shift camera perspective)
  • 顔や特徴の「学習」⁠Likeness ⁠learning⁠⁠)
  • 視点の再帰的変換(POV recursions)
  • Googleマップから視点変換(Google Maps to POV)
  • 写真の修復(Photo restoration)
  • 棒人間による注釈(Stick figure annotation)
  • 静止画から漫画化(Still image to manga)
  • 複数ステップの編集(Multi-step edits)
  • 静止画から3Dモデル化(Still images to 3D models)
  • ARによる注釈(AR annotator)
  • 数学問題の解決(Solving math problems)
  • 13枚の画像を1枚に合成(Thirteen images merged into one)
  • 試着(Trying on outfits)
  • 家のペイントシミュレーション(Painting your house)

詳しくは以下の𝕏の投稿のスレッドを参照のこと。

また、Google AI for Developersのサイトにて、Gemini 2.5 Flash Imageの新しいプロンプティングガイドを掲載した。

このほか、Google DeepMindのPhilipp Schmid氏は、商品カタログに活用する方法として、1枚の商品の写真から統一感のあるビジュアル素材ライブラリを作成するガイドを共有している。


以下、2025年9月1日追記:

Google DeepMindのPhilipp Schmid氏は、Gemini 2.5 Flash Imageのベストプラクティスを紹介した。

  • 具体的な指示を出すほど、生成画像のコントロール性が高まる。
  • キャラクターの特徴が編集を重ねて変化した場合は、詳細な説明で新規会話を始めると一貫性を保てる。
  • 画像の目的や意図を明確に伝えることで、より適切な結果が得られる。
  • 1回で完璧な画像は期待せず、会話を通じて細かく修正・改善する。
  • 「semantic negative prompts」は否定形ではなく、望むシーンを肯定的に記述する。
  • 編集時、アスペクト比は基本的に入力画像を維持し、複数画像の場合は最後の画像の比率が採用される。
  • 写真・映画用語(例:ワイド、マクロ、ローアングル、85mmポートレート、ダッチアングル)で構図を細かく指定できる。

詳しくは投稿を参照のこと。

おすすめ記事

記事・ニュース一覧