Google I/O 2018で、Googleアシスタントに以下の新機能追加が発表されました。
- 男女3人ずつの新しい声
- コマンド実行の度に「Ok Google」と言わなくてよい継続的な会話
- いくつかの問合せをまとめて実行できる
- 丁寧な言葉遣いを促すプリティ・プリーズ
- 音声操作に対応したスマートディスプレイ
この中で「新しい声」と「スマートディスプレイ」は、ボイスユーザインタフェースに新たな変化をもたらす可能性があるので、今回はこれらに触れていきます。
声を増やすのは大変なことなんです
音声合成の事情を少しでもご存知の方であれば、一度に6人も新しい声が追加されたことに驚いたはずです。逆に知らない人からすれば、何が驚く要素なのかがわからないはずです。と言うのも、これまでの音声合成で新しい声を追加しようとすると、膨大な作業工数と費用が必要だったからです。
どのくらいかと言えば、音声合成の元になる声を数百時間から少なくとも数十時間のレベルで収録します。これだけの時間になると、ナレータを数日間拘束して収録します。また、声は元音源になるので、あらゆる音のパターンを網羅するように収録原稿を入念に準備します。収録は、この原稿に基づいて進められ、一定の発話品質を保つために言い間違いや言いよどみがないか厳密にチェックしながら進めます。よって、ナレーターだけでなく収録に立ち会うエンジニアにも負荷がかかり、一般的な収録よりも時間がかかります。
また、ナレーターのスケジュールを数日間確保するのも簡単な話ではありません。専門のナレーターでも難しいので、有名声優となれば不可能に近いはずです。仮に、スケジュールが確保できても、かかる費用を回収するのが難しいとの判断になることもあります。よくあの声優の声で音声合成がしたいという話は聞きますが、そうそう実現されないのはこうした事情があるためです。
これで終わりではなく収録した声をデータベース化した後、意図した声が再生されるか確認する作業もあります。
今回、Googleアシスタントに新しい声がたくさん追加された理由は、DeepMindが開発したWaveNetを使うことで収録時間を格段に減らせるようになったためです。また、年内にはアーティストの「ジョン・レジェンド」の声が追加されるのも、このような技術背景があるためです。
このWaveNetに関しては「WaveNetが音声合成研究に与える影響」として、名古屋大学の戸田智基氏がスライドを公開しているので興味のある方は参照してください。
複数の声をどう使い分けるのか
さて、アプリ開発者からすれば、増えた声をどう使うのかがポイントです。
アナウンスなどでは女性の声が使われるので、音声合成を使うときも女性の声を選んでいるかもしれませんが、これは男女の選択肢のみなので、どちらかを選ぶならばという消極的な選択でしたが、これからは使える声が増えたので積極的に選択できます。
この状況をフォントにたとえれば、明朝とゴシックしか使えない状態です。
今どき簡単なプレゼン資料でも、これだけのフォントしか使えないのは考えられません。複数フォントが使えれば、資料にメリハリが付けられてより伝えやすくなります。音声合成も同様で、場面などで声を使い分けることで、メリハリだけではなく意味を持たせることもできます。
たとえば、普段の対話は女性の声を使うとして、エラーなどの重要事項を伝える時は男性の声を使う方法が考えられます。さらに推し進めて、伝える情報ごとに声を使い分ける方法も考えられます。たとえば、対話の声と通知の声を使い分ければ、聞く側は声の違いで情報の重要度を判断できます。
また、自動車のナビーゲーションで使われている声も、高級車では落ち着いたインテリアの印象に近い、低いトーンの落ち着いた声を使うことも可能です。余談ですが、常々、コンパクトカーから上級車まで、ナビゲーションだけは、同じ声が使われていることに疑問を持っていましたが、WaveNetが解決しそうです。
さて、文中に多くのフォントを使うと華やかですが着目点がボケます。声も同じで、多く使うと着目点がボケてしまいます。筆者の経験上では、ふたつに留めて両方がうまく際立つような使い方をするべきです。
ディスプレイが付いたときに考えること
ボイスユーザインタフェースでは、音声認識が入力装置のキーボードやマウスに相当して、音声合成がディスプレイに相当すると説明してきました。
スマートディスプレイは、ともすれば据え置きタブレットになる可能性があります。理由は、ユーザは視覚から情報を得ることに慣れているのと、これから得られる情報量は聴覚よりも格段に多いからです。音とディスプレイのどちらつかずでは、どう使えば良いのかユーザは困惑しますが、ディスプレイのほうに操作を寄せると、ユーザの習熟度の低いボイスユーザインターフェースは分が悪くなります。それぞれ特性があるので、お互いを補完する関係で作るのが最適解です。では、どんな場合なのか考えてみます。
「百聞は一見に如かず」ということわざがあるように、実際に見たほうが早いことがあります。
たとえば、場所は地図を使うほうが間違いありません。また、時刻など短時間で変化がある情報や複数の要素を組み合わせて判断する情報はディスプレイが向きます。刻々と変わる情報を読み上げると五月蠅いと感じてしまい、正しく伝わる以前の話になります。
また、複数の要素の場合も、一度にたくさんの内容を伝えられると、すべてを記憶できず最初の記憶が薄れるので、何を言っていたのかわからなくなります。余談ですが、ラジオの番組構成は、声で情報を伝える方法を勉強するのに参考になります。ボイスユーザインタフェースで、悩んだ時はラジオを聴くと解決策が見つかるかもしれません。
声の最大のメリットは、使っている端末に注意を向ける必要がなく「ながら」で使える点です。
たとえば、情報を伝える時の気づきとして効果音だけではなく、声で読み上げれば、ユーザは必要であれば注意を向けて内容が確認できます。また、気づきの内容も複数の要素を盛り込まず概要に留めるのと、ユーザがより詳細情報が欲しいと要求した場合はディスプレイに詳細を表示する使い方をすれば、声とディスプレイが補完しあう作りになって、それぞれのメリットがわかりやすくなります。
ボイスユーザインタフェースのUXを検討するときは、声とディスプレイがどう協調して機能すれば、ユーザにメリットが提供できるのかも念頭に置いてください。要件だけを満たすことに終始すると、間違いなく検討違いなものができ上がります。