Google、専用GPU上で生成速度が最大4倍となる実験モデル「DiffusionGemma」を発表

Googleは2026年6月10日、テキスト拡散（text diffusion）の手法を用いて非常に高速なテキスト生成を行う「DiffusionGemma」を発表、260億のパラメータをもつMoE（Mixture of Experts）モデルをApache 2.0ライセンスの下、実験的に公開した。

DiffusionGemma: 4x faster text generation

DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs.

Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time. pic.twitter.com/S62OSbfWff
— Google DeepMind (@GoogleDeepMind) June 10, 2026

DiffusionGemmaに採用された「テキスト拡散」（⁠text diffusion）とは、従来のLLMによるテキスト生成がトークン1つずつを順次生成していくのに対して、テキストのブロック全体を同時に生成し、数ステップで洗練させていく手法。DiffusionGemmaでは最大256トークンを並列生成でき、NVIDIA H100やGeForce RTX 5090などの専用GPU上で動作させることで、同社の自己回帰型モデルGemma 4の最大4倍高速なトークン出力を実現する。

公開された26BのMoEモデルでは推論中にアクティブ化するパラメータは3.8Bであるため、量子化すればハイエンドの専用GPUに内蔵される18GB VRAMの容量内で容易に動作できるという。またインテリジェントな自己修正機能をもち、出力を繰り返し改善することで、テキストブロック全体を一度に評価し、リアルタイムで誤りを修正していく。

Introducing DiffusionGemma, our first exploration with open diffusion text generation models

🔥Generate blocks of text at a time
🤏26B MoE built on top of Gemma 4
⚡️Up to 4x faster in popular consumer GPUs
🤗Apache 2.0

Excited to see what the community builds with it! pic.twitter.com/zros8uvBsi
— Omar Sanseviero (@osanseviero) June 10, 2026

DiffusionGemmaのこのような高速化機能は、ローカルで低並列度の推論向けに設計されている。処理能力の高いクラウドサービスで使用する場合、自己回帰モデルを効率的に展開して計算能力を飽和させることができるため、DiffusionGemmaの並列デコードによる効果はあまり上がらず、サービスコストの上昇につながることがある。また、DiffusionGemmaは生成速度を優先するため、全体的な出力品質は標準のGemma 4よりも低くなる。高い品質が求められるケースでは標準のGemma 4の導入が推奨されている。

DiffusionGemma実験モデルはHugging Face上で公開されている。ユーザーは専用GPUを搭載した自前のデスクトップ上で動作させたり、Gemini Enterprise Agent Platform Model GardenやNVIDIA NIMを使ってクラウド上で実行させることができる。