クラウドサービス SaaS

MSの「Neural Text to Speech」--合成音声が自然で聞き取りやすい発音に

マイクロソフトの「Azure Cognitive Services」で、「Neural Text to Speech」サービスを利用できるようになった。ニューラルネットワークを使用して、以前よりも自然な音声を作成することができる。

 コンピューターとやりとりする手段がキーボードとディスプレイしかなかった時代は、遠い昔の話だ。今ではもっと自然なユーザーインターフェースが身近にあり、タッチや音声認識による操作も可能になっている。コンピューターからの応答についても同様で、ハプティクスや音声合成も使用されるようになった。

 手を使わずに離れた場所からデバイスを操作できるため、音声の重要度は増すばかりだ。デバイスを触わる必要も見る必要もなく、短いウェイクワードと良質な音声認識システムを用意するだけでいい。最もなじみ深い音声技術といえば、「Cortana」「Alexa」「Siri」「Google Assistant」などのデジタルアシスタントだろうが、支援システムや車載アプリケーションのほか、手動での操作が困難な環境、気が散ってしまう環境、非常に危険な環境でも音声技術が使われるようになっている。

コードの人工的な音声

 音声認識のもう1つの側面は、もちろん音声合成だ。コンピューターは、文字を表示するのは得意だが、文字を読み上げるのはあまり得意ではない。求められているのは、テキストコンテンツを簡単に取り出して、人間が話すような聞き取りやすい音声に変換する方法だ。SFロボットのような不気味で一本調子の話し方ではない。誰もがよく知る自動電話システムやGPSアプリの音声合成ツールは、基本的な発音テストにも合格できず、名前や住所を笑ってしまうほど誤った読み方で発音する。

編集部おすすめの関連記事

残り本文:約2562文字 ログインして続きを読んでください。

「クラウドサービス」で読まれている記事

TechRepublic Japanで人気の記事

編集部オススメ

トレンドまるわかり![PR]

財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
PC・モバイル
新興技術
ITインフラ
クラウドサービス
クラウドストレージ
IaaS
PaaS
プライベートクラウド
OS・ミドルウェア
開発
データベース
運用
セキュリティ

ホワイトペーパーランキング

  1. Google Cloudセキュリティ基盤ガイド、設計から運用までのポイントを網羅
  2. 仮想化・自動化を活用して次世代データセンターを構築したJR東日本情報システム
  3. スモールスタート思考で業務を改善! 「社内DX」推進のためのキホンを知る
  4. Emotetへの感染を導く攻撃メールが多数報告!侵入を前提に対応するEDRの導入が有力な解決策に
  5. 偽装ウイルスを見抜けず水際対策の重要性を痛感!竹中工務店が実施した2万台のPCを守る方法とは

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]