Google、70以上の言語に対応、表現力豊かな音声生成が可能なスピーチモデルGemini 3.1 Flash TTSをリリース

Googleは2026年4月15日、テキスト読み上げモデルの新バージョン「Gemini 3.1 Flash TTS」をリリースした。

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

Gemini 3.1 Flash TTS is our most controllable text-to-speech model yet.

With new Audio Tags, you can easily direct vocal style, delivery, and pace through text commands. 🧵 pic.twitter.com/Bq4SD8eLUN
— Google DeepMind (@GoogleDeepMind) April 15, 2026

Gemini 3.1 Flash TTSは、生成する音声の品質や表現力が向上し、これまでで最も音声表現の制御が可能なテキスト-to-スピーチモデル。「⁠明るい」「⁠若々しい」「⁠滑らか」など30種類の音声オプションを備え、英語のほか日本語、ドイツ語、ヒンディー語など、70以上の言語に対応している。数千人の視覚障害者の好みを反映するベンチマーク「TTS（Text to Speech）リーダーボード」では、低コストでありながら高品質な音声生成を備えたグループに属すると位置付けられた。

また、新しく導入された「音声タグ（Audio Tags⁠）⁠」により、テキストコマンドからボーカルスタイル、話し方、ペースを簡単に指示できるようになった。音声タグは発音方法、トーン、間投詞などを示すもので、[ ]で囲んで指示を行う。同社のドキュメントではよく使用される例として以下のようなタグが紹介されている。

[amazed]（驚き）
[crying]（泣く）
[curious]（興味深い）
[excited]（興奮する）
[sighs]（ため息をつく）
[gasp]（息を呑む）
[giggles]（クスクス笑い）
[laughs]（爆笑）
[mischievously]（いたずらっぽく）
[panicked]（動転する）
[sarcastic]（皮肉っぽく）
[serious]（真剣に）
[shouting]（叫ぶ）
[tired]（疲れた感じで）
[trembling]（震えながら）
[whispers]（ささやく）

そしてGemini 3.1 Flash TTSで生成されるすべての音声にはSynthIDのウォーターマークが埋め込まれる。音声出力に直接織り込まれているウォーターマークによりAI生成コンテンツを確実に検出することができ、誤情報の拡散を防ぐのに効果を発揮する。

Gemini 3.1 Flash TTSは、Google Workspaceユーザー向けの動画生成機能Google Vidsで利用できるほか、開発者向けプレビュー版がGemini APIとGoogle AI Studioを介して利用可能。また企業ユーザーはVertex AI経由でプレビュー版を利用することができる。