コンピューターとやりとりする手段がキーボードとディスプレイしかなかった時代は、遠い昔の話だ。今ではもっと自然なユーザーインターフェースが身近にあり、タッチや音声認識による操作も可能になっている。コンピューターからの応答についても同様で、ハプティクスや音声合成も使用されるようになった。
手を使わずに離れた場所からデバイスを操作できるため、音声の重要度は増すばかりだ。デバイスを触わる必要も見る必要もなく、短いウェイクワードと良質な音声認識システムを用意するだけでいい。最もなじみ深い音声技術といえば、「Cortana」「Alexa」「Siri」「Google Assistant」などのデジタルアシスタントだろうが、支援システムや車載アプリケーションのほか、手動での操作が困難な環境、気が散ってしまう環境、非常に危険な環境でも音声技術が使われるようになっている。
コードの人工的な音声
音声認識のもう1つの側面は、もちろん音声合成だ。コンピューターは、文字を表示するのは得意だが、文字を読み上げるのはあまり得意ではない。求められているのは、テキストコンテンツを簡単に取り出して、人間が話すような聞き取りやすい音声に変換する方法だ。SFロボットのような不気味で一本調子の話し方ではない。誰もがよく知る自動電話システムやGPSアプリの音声合成ツールは、基本的な発音テストにも合格できず、名前や住所を笑ってしまうほど誤った読み方で発音する。
残り本文:約2562文字 ログインして続きを読んでください。