AI・機械学習

自然言語処理入門--コンピューターが人間の発話を聞き取って処理するための技術とは

自然言語処理(NLP)は、コンピューターが人間の言葉を聞き取って理解し、処理する技術だ。NLPの基本、現在の課題、考えられる用途、導入方法などについて解説する。

 「スタートレック」の宇宙船に搭載されたコンピューターのように、話しかけると内容を理解するだけでなく返事をするというコンピューターがSFの世界だけに存在していた時代は、それほど昔のことではない。24世紀の宇宙船エンタープライズ号のテクノロジーが、21世紀に現実となったのは、自然言語処理(NLP)のおかげだ。機械学習を用いるこの技術により、コンピューターは話し言葉や書かれた文字を理解して処理し、応答する能力を獲得する。

 誤解しないでほしいが、NLPは複雑な分野であり、学習には長い年月がかかる可能性がある。この入門記事では、NLPに関する基本事項を紹介して、企業にとっての利点を詳しく説明し、導入を開始する方法を解説する。

どんなものなのか

 自然言語処理(NLP)は、コンピューターが人間の言葉を聞き取って処理し、理解して再現できるようにするための学際的なアプローチだ。NLPのプロセスには、言語学やコンピューターサイエンス、機械学習などの分野が関わっている。これまでの成果は、デジタルアシスタント、チャットボット、リアルタイム翻訳アプリ、言語を使用するその他のソフトウェアなどで活用されている。

 コンピューターに言語を理解させて使用させるという概念は、新しいものではない。その起源はおそらく、アラン・チューリングの1950年の論文「Computing Machinery and Intelligence」にまで遡るだろう。この論文から生まれたアイデアが、チューリングテストだ。

 簡単に説明すると、チューリングは、機械が人間と見分けがつかないような動作をすることができるかどうかを確かめようとした。そのための根本的な要件は、言語を処理して、適切な応答をする能力だ。

 チューリングが論文を執筆した後、自然言語処理に対するアプローチが多数考案された。最初に登場した「ELIZA」のようなルールベースのシステムは、一連の命令を実行することしかできなかった。ELIZAなどのシステムは、応答が定型的かつ曖昧で、すぐに同じ応答を繰り返すようになり、不自然な感じがするため、簡単に人間と区別できた。これは、現代のNLPの基本的な要素である理解能力を備えていなかったからだ。

 機械学習の出現によって、コンピューターがサンプルデータを基にアルゴリズムで独自のルールを開発できるようになり、自然言語処理はチューリングが予測し得なかったような形で急激な進歩を遂げた。

 自然言語処理は、人間の話し言葉を理解する能力に関して、本物の人間を凌ぐまでになった。だが、この画期的な偉業をもってしても、本当の意味で完全なNLPはまだ実現していない。なぜなら、その作業を実行する機械は、言語を文字に起こしていただけであり、理解することは求められていなかったからだ。

 現代のNLPプラットフォームは、話し言葉を視覚的に処理することもできる。たとえば、Facebookの「Rosetta」は、「10億件を超える画像や動画フレームから、さまざまな言語のテキストをリアルタイムに抽出」できると、米TechRepublicの姉妹サイト米CNETが報じている。

どのような課題があるのか

 コンピューターは、言語を話すために人間の話し言葉を理解する必要はない。ある種の言語構造に基づいて動作することで、入力を受け入れてデータを処理し、命令に応答することができる。

 「Swift」「Python」「JavaScript」などの言語には、自然言語にはない共通点がある。それは正確さだ。

 人間が話す言葉は、どうひいき目に見ても正確ではない。文脈に依存しており、隠喩的で曖昧だ。不完全な言葉になることも多い。言語を理解するには、コンピューターにはない多くの背景知識と解釈能力が必要だ。

 計算言語学者のEkaterina Kochmar氏は、自然言語処理に関する講演において、単語はある種の想像上の意味空間に存在していると説明した。Kochmar氏によると、私たちの頭の中には単語を表したものがあり、関連した意味や類似した意味を持つ単語は意味理解の網の中で固まって存在しているという。

 言語をそのように捉えれば、機械学習ツールを構築して、コンピューターがアルゴリズムによって独自の意味空間を作成できるようにすることで、単語間の関係を類推して自然な話し言葉をより正確に理解させることが可能になる。

 ただし、それで課題が克服されたわけではない。デジタルアシスタントに伝えるような単純で正確な言葉を理解する段階から、適切な話し言葉を独力で生成する段階に進むことは、NLPプログラムにとって、依然として困難だ。ロマンチックな言葉を理解できるように訓練された人工知能(AI)が作成したハート型キャンディーは、予想どおりばかげている。人工ニューラルネットワークが全編を執筆した小説「1 the Road」は、全体的に意味をなしておらず、意味を理解しているように思える部分も所々にあるが、それらはすべて偶然の産物かもしれない

 自然言語処理は、話し言葉を分析してデータに変換し、理解して、アルゴリズムで適切な応答を生成する能力は向上したが、独力で話す能力や、自然言語の基礎をなす曖昧さや隠喩を理解する能力が、依然として全体的に欠けている。

 最初の段階、すなわち理解能力はすでに獲得した。2つ目の段階である自然な話し言葉や人間の言語の生成に関しては、まだ少し行き詰まっている。先駆的な数学者でコンピューターサイエンティストのエイダ・ラブレスが正しければ、この閉塞状態はしばらく続くかもしれない。ラブレスの主張では、コンピューターは命じられたことしかできず、何かを創造する能力はないとされている。「ラブレス伯爵夫人の異論」として知られるこの見解は、チューリングテスト、ひいては自然言語処理の批判においてよく引用される。機械が自分で考えることができないのであれば、最終的に繰り返しにならない言葉の使い方を機械に教える方法はあるのだろうか。

「AI・機械学習」で読まれている記事

TechRepublic Japanで人気の記事

編集部オススメ

トレンドまるわかり![PR]

財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
PC・モバイル
新興技術
IoT
ドローン
ロボット
VR・AR
AI・機械学習
ITインフラ
クラウドサービス
OS・ミドルウェア
開発
データベース
運用
セキュリティ

ホワイトペーパーランキング

  1. 5分でわかる、レポート作成の心得!成果至上主義のせっかちな上司も納得のレポートとは
  2. ノートPCは従来ながらの選び方ではダメ!新しい働き方にも対応する失敗しない選び方を徹底解説
  3. 問題だらけの現場指導を効率化!「人によって教え方が違う」を解消するためのマニュアル整備
  4. 緊急事態宣言解除後の利用率は低下 調査結果に見る「テレワーク」定着を阻む課題とその対応策
  5. たしか、あのデータは、こっちのアプリにあったはず…--業務改善のためのアプリ導入がストレスの原因に?

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]