AI・機械学習 クラウドサービス

MSの未来の音声技術--Semantic Machinesの対話型AIがもたらす進化

現在の音声アシスタントには、一度終わった会話の続きができないなどの制約がある。マイクロソフトが買収したSemantic Machinesの技術がもたらす進化について、同社の共同創設者が語った。

 だからといって、このエンジンがMicrosoftの「Tay」ボットのように暴走してしまうおそれはなく、学習は管理された環境でまだ進められている、とRoth氏は指摘する。「野放しで学習させているわけではないので、学んでほしくないことを学んでしまう可能性はない。どちらかと言えば、教師あり学習のアプローチに近い」

 音声エージェントに機能を学習させることで、対話エンジンを利用できる領域の数が大幅に増加する。あらゆるドメインと対話についてプログラムする必要のあるエージェントよりもはるかに多い。「これにより、人間が本質的にシステムに望む非常に多くの作業を処理できる可能性がある。プログラミングチームが腰を据えて、その機能を具体化するコードを実際に記述する必要はない」(Roth氏)

対話エンジンは、仕事の経費の処理方法などの詳細や、ユーザーが過去の対話で決めたことを記憶できるようになる。
対話エンジンは、仕事の経費の処理方法などの詳細や、ユーザーが過去の対話で決めたことを記憶できるようになる。
提供:Semantic Machines/Microsoft

 Roth氏は、使用する方法は斬新だと語ったが、このアプローチを機械翻訳における変化になぞらえた。手作業でのルールの記述から、機械学習を使用した翻訳機能の作成への変化だ。「実際には、実証済みの機械学習の手法を言語インターフェースの分野に応用している」と同氏は説明する。

 「言語はあまりにも複雑だ。テール部分があまりにもロングテールだ。人間の表現の範囲が広すぎる。どれだけ多くのルールを記述しても、満足のいくシステムは決して得られない。現在、スマートフォンやスマートスピーカーの言語インターフェースは、依然としてルールベースの機械翻訳システムと同じような段階にあり、基本的にすべての機能がプログラマーによって手動で記述されている。われわれは、この全面的な機械学習アプローチに移行しているところだ。このアプローチでは、皆がやりたいことをすべて予測または予期しようとするのではなく、データを生成して、そのデータから学習する。人間の表現の豊かさから、人間が求めるバックエンド機能の複雑さまで、すべてをマッピングするデータを生成し、間にあるソフトウェアをすべて排除して、システムにそれらのつながりを学習させなければならない。われわれは、確固としたタスク指向のエージェント型システムに言語を接続する方法を考え出した」

 Roth氏によると、このシステムは人間が同じ命令を口にする際の表現の違いを学習できるという。「このパイプラインでは、語彙的な差異を扱う。『照明を点けて』『ランプのスイッチを入れて』『ここを明るくして』は、どれも同じことを言っている。このシステムは自ら学習し、自分が正しいと理解した方法で値をグループ化する。言語と必要とされる基本的なアクションシーケンスの重要な関係をどのようにして導き出すかを、このパイプラインから独自に学習する」

 それをユーザーごとにパーソナライズすることができる。「システムはあらゆる種類のバックエンドAPIとやりとりする。接続できる一部のAPIには、特定のユーザーの好みに関する情報が含まれるため、そのパーソナライゼーション情報を通して、システム内でさまざまな選択をする方法について、『演繹バイアス』と呼ばれるものを実際に調整または軽減することができる」。Roth氏はこのように語った。

 語彙の差異を処理するのと同じパイプラインは、複数の言語を処理することもできる。つまりMicrosoftは、企業顧客が必要とする多くの言語をサポートできるようになる。「システムに言語依存はない。基本的には言語非依存だ」とRoth氏は述べた。「われわれの見地からすれば、ユーザーは何らかの言語を使用しており、正面から入ってくる言語はどれでもよく、システムはその言語を受けて、どのようなアクションを実行すべきかを学習することができる。これはすべてディープラーニングだ。キーワードなどに基づいているわけではない。われわれからすると、他の言語は言い換えの極端な形態として考えることができる。何かを表すドイツ語は、英語で何かを表現する別の言い方とそれほど変わらない」

よりスマートな連想

 命令やスキルへの参照の正確な順序を理解していなくても、必要な命令を音声アシスタントに実行させることができれば、音声インターフェースはさらに強力になる。だが音声インターフェースは、ユーザーが話すさまざまなことをもっとスマートに結び付ける必要もある。「語彙的な差異を処理できるだけでなく、ユーザーがどのような順序で物事を進めたいのかも認識できなければならない。物事を直線的に進める人もいるが、まず概念を深く掘り下げてから後戻りして、タスクを遂行するのを好む人もいる」(Roth氏)

 音声エージェントにレストランの予約を頼んだが、希望の時間に席がなかった場合、エージェントは他の時間帯を提案して、一緒に行く人にその時間でかまわないか確認するか、別のレストランを見つけてくるだろう。だが、予約を実行するよう伝えた1時間後に気が変わり、もう一度音声エージェントを使って別のレストランを予約しようと思った場合、エージェントは、すでに実行済みの事柄についてユーザーが話していることを認識し、詳細情報を見つけて、変更し、新しい情報を誰に伝える必要があるのかを理解できなければならない。

 それを拡張して、異なる時間に複数のデバイス上で機能するようにすることも可能かもしれない。「Office 365」サービスの多くで、それがすでに実現している。MicrosoftがBuildで披露したコンセプト動画では、音声アシスタントが会議の予定変更や中止を実行し、最初の会議の関係者についての適切な文書を表示した。

 「通勤中の車内で仕事をいくつか片付け、オフィスに到着してノートPCを開くと、どこで作業を中断したかをシステムが把握していて、考えていたことや思いついたアイデアの続きに取りかかれる。そんなことが可能になったらどうなるか想像してみてほしい」。Roth氏はこのように語る。「同様に、帰宅すると、家にあるすべてのアンビエントコンピューティングデバイスが、出かけていた場所、取り組んでいたこと、その瞬間、数日後、または数週間後に興味がありそうなことについて、コンテキストを完全に把握している」(Roth氏)

この記事は海外CBS Interactive発の記事を朝日インタラクティブが日本向けに編集したものです。

「AI・機械学習」で読まれている記事

TechRepublic Japanで人気の記事

編集部オススメ

トレンドまるわかり![PR]

財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
PC・モバイル
新興技術
IoT
ドローン
ロボット
VR・AR
AI・機械学習
ITインフラ
クラウドサービス
クラウドストレージ
IaaS
PaaS
プライベートクラウド
OS・ミドルウェア
開発
データベース
運用
セキュリティ

ホワイトペーパーランキング

  1. 5分でわかる、レポート作成の心得!成果至上主義のせっかちな上司も納得のレポートとは
  2. ノートPCは従来ながらの選び方ではダメ!新しい働き方にも対応する失敗しない選び方を徹底解説
  3. 問題だらけの現場指導を効率化!「人によって教え方が違う」を解消するためのマニュアル整備
  4. 緊急事態宣言解除後の利用率は低下 調査結果に見る「テレワーク」定着を阻む課題とその対応策
  5. たしか、あのデータは、こっちのアプリにあったはず…--業務改善のためのアプリ導入がストレスの原因に?

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]