クラウドサービス SaaS

MSの「Neural Text to Speech」--合成音声が自然で聞き取りやすい発音に

マイクロソフトの「Azure Cognitive Services」で、「Neural Text to Speech」サービスを利用できるようになった。ニューラルネットワークを使用して、以前よりも自然な音声を作成することができる。

 コンピューターとやりとりする手段がキーボードとディスプレイしかなかった時代は、遠い昔の話だ。今ではもっと自然なユーザーインターフェースが身近にあり、タッチや音声認識による操作も可能になっている。コンピューターからの応答についても同様で、ハプティクスや音声合成も使用されるようになった。

 手を使わずに離れた場所からデバイスを操作できるため、音声の重要度は増すばかりだ。デバイスを触わる必要も見る必要もなく、短いウェイクワードと良質な音声認識システムを用意するだけでいい。最もなじみ深い音声技術といえば、「Cortana」「Alexa」「Siri」「Google Assistant」などのデジタルアシスタントだろうが、支援システムや車載アプリケーションのほか、手動での操作が困難な環境、気が散ってしまう環境、非常に危険な環境でも音声技術が使われるようになっている。

コードの人工的な音声

 音声認識のもう1つの側面は、もちろん音声合成だ。コンピューターは、文字を表示するのは得意だが、文字を読み上げるのはあまり得意ではない。求められているのは、テキストコンテンツを簡単に取り出して、人間が話すような聞き取りやすい音声に変換する方法だ。SFロボットのような不気味で一本調子の話し方ではない。誰もがよく知る自動電話システムやGPSアプリの音声合成ツールは、基本的な発音テストにも合格できず、名前や住所を笑ってしまうほど誤った読み方で発音する。

編集部おすすめの関連記事

残り本文:約2562文字 ログインして続きを読んでください。

あなたにおすすめの記事

関連記事

ホワイトペーパーランキング

  1. AI導入に立ちはだかる「データ」「複雑さ」「コスト」「人材」の壁をどう乗り切ればいいのか?
  2. 経産省調査で明らかに:未だにレガシーシステムを抱える企業が8割!オープン化でよくある課題とは?
  3. HCIのメリットを最大限生かすには?導入後の“ギャップ”を軽減する最適解
  4. AWS東京リージョンの大規模障害に学ぶ、パブリッククラウド上のシステムの迅速な復旧方法
  5. 対談:「2025年の崖」とクラウドによるデータ活用の可能性

編集部おすすめ

トレンドまるわかり![PR]

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
クラウドストレージ
IaaS
PaaS
プライベートクラウド
OS・ミドルウェア
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]