イベントレポート
【CES 2019】Nuance Communications、視線入力も備える音声認識エンジン新型「Dragon Drive」をデモ
ハンズフリーの世界を豊かに
2019年1月15日 08:35
Nuance Communications(以下、ニュアンス)は、米ラスベガスで開催された「CES 2019」において、自動車用音声認識エンジン「Dragon Drive」の開発中バージョン(以下、新型Dragon Drive)をデモンストレーションした。
ニュアンスは、コンシューマ製品では「ドラゴンスピーチ」などで知られる音声認識エンジンの世界的メーカー。現在力を入れているのが、自動車向け音声認識エンジン「Dragon Drive」で、メルセデス・ベンツの「ハイ、メルセデス(Hi,Mercedes)」もDragon Driveのエンジンが使われているなど、多くの自動車メーカーに採用されている。
今回、CES 2019でデモンストレーションを行なった新型Drgon Driveは、音声認識入力に加え、視線入力を加えようというもの。そのためデモ車には、フロントウィンドウにタイルメニューを表示するプロジェクション装置と、運転席に視線を読み取る赤外線カメラユニットを装備していた。
この新型Drgon Driveでは、「Hello Dragon」や「ハイ、メルセデス(Hi,Mercedes)」のようなウェイクアップワードを発声しなくてもよく、常に車室内の会話を読み取っている。その自然な流れの中でコマンドを解釈でき、システム側に送り込むことが可能になっている。ここには、ニュアンスのNLU(Natural Language Understanding、自然言語理解)の技術が使われており、この理解をクラウドを使わず、つまりオンプレミスで行なっている。
自動車の場合、どうしても通信途絶区間を走行することを想定する必要があるため、ニュアンスのDragon Driveはオンプレミスで動作するようになっており、天気情報やガソリンスタンド情報など必要な情報のみクラウドに取りに行く、ハイブリッドシステムを採っているのも特徴だ。
デモ説明を行なっていただいたニュアンス・コミュニケーションズ・ジャパン ソリューション アーキテクトのメテナー・ルッツ氏は、視線入力と音声認識を使うことで新しいナビゲーションなどが可能になるという。
たとえば、従来のDrgon Driveであれば「Close the right window」と、閉める窓の位置を指定しなければならなかった。これが視線入力と組み合わされれば、見ている方向の窓を「Close the window」で閉じることができる。
さらに応用として、フロントウィンドウの投影メニューを用意。この投影は、ヘッドアップディスプレイのような小ささではなく、結構な大きさがあるものだが、透けていることで前方の景色と重畳して見える。透明度が設定されたレイヤー状のものであると思えばよいだろう。
この投影メニューのタイルを視線で指定し、音楽を流したり、電話をかけたり、電話の詳細メニューを選択できる。前を見ながら音声認識で、つまりハンズフリーですべて行なおうとするものだ。
さらにこの視線認識が凄いのは、外の風景と連動してコマンドをこなしていけること。外の見える景色に対し、「What is a this place」と話せば、今見ているであろう景色の説明を行なってくれる。自車位置、周辺地図、視線位置を解析すれば理屈状できることは分かるが、実際にデモで動いているのをみると強烈な現実感がある。
フロントウィンドウに投影するメニューについてルッツ氏は、「各国の法規制の問題があるので、解決することはたくさんあるとした」が、センターコンソールの画面を操作するより、そしてスマートフォンを操作するより、よりスマートなメニュー操作の解決方法だろう。但し、視線を動かすという安全係わる部分があるだけに、運転中のメニュー操作の1つの解決提案と言える。
市販車の世界では、「ハイ、メルセデス(Hi,Mercedes)」など高度な音声認識コントロールが始まったばかりだが、開発中の技術はさらに先を行く。将来技術の展示会であるCES 2019らしい、ニュアンスのデモンストレーションだった。