Googleは2026年6月10日、テキスト拡散
DiffusionGemma is our new experimental open model with up to 4x faster output on dedicated GPUs.
— Google DeepMind (@GoogleDeepMind) June 10, 2026
Instead of predicting word-by-word, it generates entire blocks of text simultaneously. This lets the model self-correct and format complex markdown in real time. pic.twitter. com/ S62OSbfWff
DiffusionGemmaに採用された
公開された26BのMoEモデルでは推論中にアクティブ化するパラメータは3.
Introducing DiffusionGemma, our first exploration with open diffusion text generation models
— Omar Sanseviero (@osanseviero) June 10, 2026
🔥Generate blocks of text at a time
🤏26B MoE built on top of Gemma 4
⚡️Up to 4x faster in popular consumer GPUs
🤗Apache 2.0
Excited to see what the community builds with it! pic.twitter. com/ zros8uvBsi
DiffusionGemmaのこのような高速化機能は、ローカルで低並列度の推論向けに設計されている。処理能力の高いクラウドサービスで使用する場合、自己回帰モデルを効率的に展開して計算能力を飽和させることができるため、DiffusionGemmaの並列デコードによる効果はあまり上がらず、サービスコストの上昇につながることがある。また、DiffusionGemmaは生成速度を優先するため、全体的な出力品質は標準のGemma 4よりも低くなる。高い品質が求められるケースでは標準のGemma 4の導入が推奨されている。
DiffusionGemma実験モデルはHugging Face上で公開されている。ユーザーは専用GPUを搭載した自前のデスクトップ上で動作させたり、Gemini Enterprise Agent Platform Model GardenやNVIDIA NIMを使ってクラウド上で実行させることができる。