ニュース

ニュアンス・コミュニケーションズ、AI活用でより自然になる自動車向け音声認識技術「Dragon Drive」をデモ

自動運転時代に向けてより自然な人間とクルマのインターフェースとなる音声認識機能のプロトタイプ

2016年11月15日 開催

 音声認識技術で知られるニュアンス・コミュニケーションズは11月15日、東京都内のホテルで同社のプライベートイベント「Nuance Automotive Forum Japan 2016」を開催。自動車メーカーや自動車パーツメーカーの関係者などを対象に、同社が提供している音声認識技術「Dragon Drive(ドラゴンドライブ)」の将来像を示した。

 このなかで同社は将来リリースするDragon Driveに、同社が"Smart Domains”と呼んでいるAI拡張の機能を提供していくことを明らかにし、そのデモを行なった。同社によれば、それらを活用することで自動運転時代に向けて、クルマと人間がより自然な形でコミュニケーションできるようになるという。

ニュアンスのDragon DriveにAIの機能を付加するSmart Domains

Smart Domainsの4つの機能(ソリンスタンド検索、駐車場検索、スマート目的地検索、自動車のマニュアル)

 ニュアンスはPCのソフトウェアベンダだった時代から、音声認識のソフトウェアベンダとして知られており、現在では自動車を含めた組み込み機器に対して音声認識のソフトウェア技術を提供するソリューションベンダとして知られている。ニュアンスもAppleも公式には何もアナウンスはしていないが、Appleが同社のスマートフォン「iPhone」など向けに提供している音声認識ソフトウェアの"Siri"は同社の技術に基づいているとされている。その他にも、日本で販売されている製品も含めて、自動車に搭載されているIVIやカーナビゲーションの音声認識の多くの製品は同社のソフトウェア技術が採用されていることが多い。

 そうしたニュアンスは、自動車向けにはDragon Driveと呼ばれるソリューションを提供している。Dragon Driveはドメインと呼ばれる複数の機能に分割されており、自動車メーカーやパーツメーカーはそれらの機能のうち必要な機能だけを実装することができる。かつ、それらの機能は、自動車メーカーやパーツメーカーが自社で設計するIVIやカーナビゲーションの一部として実装することが可能になっており、見た目ではDragon Driveが実装されていることが分からないように実装することができ、自動車メーカー、パーツメーカーはユーザーインターフェースの使いやすさなどで競争ができるように配慮されている。

Reasoning Framework
Smart Domains

 ニュアンスはそのドメインに新しくSmart Domainsと同社が呼んでいるAIにより実現されている機能を追加する。例えば、ガソリンスタンドや駐車場を探す機能、スマート目的地検索、自動車のマニュアルなどがそれで、同社が提供するReasoning Framework(推論フレームワーク)と呼ばれるAIの仕組みを利用して実現される。具体的にはマシーンラーニングを利用したパーソナライゼーション(個人に最適化したサービス)、文脈を解釈しての応答、より自然な言語応答といった技術を活用している。

Nuance Communications 上席副社長 兼 オートモーティブ事業部 事業部長 アーンド・ヴァイル氏

 Nuance Communications 上席副社長 兼 オートモーティブ事業部 事業部長 アーンド・ヴァイル氏は「自動車のアシスタンスサービスはドライバーや乗客の助けとなる。しかし、そのためにはドライバーや乗客が何を求めているか理解するだけでなく、その背後にあるニーズを推論し適切な反応をする必要がある。そのために、AIの技術が必要になる」と述べ、AIを活用することで、より顧客が求めるニーズに対して正しく応答していくことが可能であるとした。

今後5~10年でAIによる音声認識機能は徐々に自動車に搭載され、自然に話せる自動車が実現

 Nuance Automotive Forum Japan 2016で同社は、そうしたAIを活用した音声認識のデモを行なった。

AI技術を利用した音声認識のプロトタイプ

 同社のAI技術を利用したプロトタイプでは同社の自然言語技術や、前出のReasoning Frameworkを利用したデモが行なわれた。例えば”サンフランシスコ市役所の近くで安価なレストランを探してほしい"というリクエストを音声でカーナビに語りかけると、"中華か、フランス料理か、和食か、それか他にご希望はありますか?"とユーザーの目的がご飯を食べることだとAIが推測して選択肢を示してくれる。

 従来の音声認識の場合には、ただレストランの選択肢を示して終わりだったので、この点が大きな違いになる。そこに"イタリア料理で"と返事をすると、前後の文章も考慮に入れて、サンフランシスコ市役所の近くのイタリア料理のレストランを検索し、それを選択肢と示してくれる。現状の音声認識では、ユーザーが”サンフランシスコ市役所の近くのイタリア料理のレストラン"と条件を明示しない限り検索されないので、人間と人間が会話しているような形で検索されるというのが大きな違いとなる。

ドライバーが”サンフランシスコ市役所の近くで安いレストランを探して”というと、自動車が”中華か、フランス料理か、和食か、それか他にご希望はありますか?”と応答する
ドライバーが”イタリア料理はどう?"と聞くと、その前の文脈である"サンフランシスコ市役所の近くで安いレストランを探して"も考慮に入れてメッセージを返してくれる。まるで人間と話しているようだ
”やっぱりやめてもっと高めなアメリカ料理にする"とかユーザーの我が儘にもちゃんと応答する
Dragon Driveのデモ、ガソリンスタンド検索ではルートや値段などを考慮に入れてと音声で指示を出すと結果を返してくれる。曖昧な用語での検索も可能になる
Nuance Communications オートモーティブ戦略・製品マーケティング部門 上席部長 エリック・モンタギュー氏

 なお、こうした技術が実際に採用される時期について、Nuance Communications オートモーティブ戦略・製品マーケティング部門 上席部長 エリック・モンタギュー氏は「今後レベル4やレベル5の自動運転を実現していくには、こうしたAIを利用した音声機能が必要になる。既にベースラインのテクノロジーは存在しており、現在それをどのように実装していくかという段階にある。今後5~10年かけて徐々に機能として実装していくことになるだろう」と述べ、今後レベル4やレベル5といった本格的な自動運転時代に向けて自動車メーカーに採用されていくことになるだろうという見通しを明らかにした。