Googleは2026年4月15日、テキスト読み上げモデルの新バージョン
Gemini 3.
— Google DeepMind (@GoogleDeepMind) April 15, 20261 Flash TTS is our most controllable text-to-speech model yet.
With new Audio Tags, you can easily direct vocal style, delivery, and pace through text commands. 🧵 pic.twitter. com/ Bq4SD8eLUN
Gemini 3.
また、新しく導入された[ ]で囲んで指示を行う。同社のドキュメントではよく使用される例として以下のようなタグが紹介されている。
[amazed](驚き)
[crying](泣く)
[curious](興味深い)
[excited](興奮する)
[sighs](ため息をつく)
[gasp](息を呑む)
[giggles](クスクス笑い)
[laughs](爆笑)
[mischievously](いたずらっぽく)
[panicked](動転する)
[sarcastic](皮肉っぽく)
[serious](真剣に)
[shouting](叫ぶ)
[tired](疲れた感じで)
[trembling](震えながら)
[whispers](ささやく)
そしてGemini 3.
Gemini 3.