ニュース

ドライバーの視線を検知。「あれ」で伝わるユーザーインターフェース

音声検索を次のステージへ。「Cerence Multi Modal」を日本初公開

2019年11月7日 開催

Cerence Japan株式会社 シニアセールスエンジニアリングマネージャー兼プリンシパルマーケティングマネージャーの村上久幸氏

 Cerence Japanは11月7日、視線検知技術を使ったユーザーインターフェースを持つ「Cerence Multi Modal」を日本初公開した。この技術は視線や音声など複数の情報を利用し、ドライバーの視線の先にあるものの情報を得ることができるものとなる。

 この技術は、すでに「CES 2019」で公開され、デモ走行も披露されているが、今回公開されたのは、日本語での利用を可能にするなどのバージョンアップを実施したもの。発表に合わせて東京・お台場エリアで実際にクルマを走行させ、Cerence Japanスタッフによる運転と発話で情報を得られることも公開された。

 なお、Cerence Inc.(セレンス・インク)は10月1日に音声認識技術で知られるNuance Communications(ニュアンス・コミュニケーションズ)から自動車関連事業を分社した新会社。日本法人もエンタープライズ事業をニュアンス・コミュニケーションズ・ジャパンとして分離し、オートモーティブ事業はCerence Japanとしてスタートしている。

マルチモーダルの「Cenrence Multi Modal PoC」

 デモンストレーションを行なった「Cenrence Multi Modal PoC」は発話者の視線の先をターゲットに音声検索をするもので、対象物に視線が向けられていれば、「あれ」「それ」といった言葉でも指示できる。今回はデモ版で、製品化に向けた1歩手前でメーカーに採用を働きかける状態のものとなる。

 マルチモーダルとは、人と機械のインターフェースのあり方が複数あること。対する単一のインターフェースは「ユニモーダル」で、例えば電話のような音声だけのコミュニケーションでは話しかけても音声のみの返答となり、伝達内容によってはうまく伝わらないなどの欠点がある。

マルチモーダルとは
車両、環境、データとのユーザーインターフェース

 それに対してマルチモーダルでは、人間の感覚から視覚、聴覚、嗅覚、触覚など複数のものを活用する。例えば人が話す様子なら、言葉で話す以外にも顔の表情や身振りなどの視覚情報といった幅広い情報も同時に届けられる。

 Cerence Japan シニアセールスエンジニアリングマネージャー兼プリンシパルマーケティングマネージャーの村上久幸氏は「マルチモーダルが自然。この考え方をクルマに取り入れたのがCenrence Multi Modal PoC」と解説し、「安全にクルマを運転しながら情報をやり取りする助けになり、新しい価値を生み出す」とした。

 Cenrence Multi Modal PoCの動作は「クルマを運転していて、気になる店や建物がある時、その方向を向いて『あの店は何?』『評判はどう?』と発話すると、システムがドライバーが何を示しているか判断してその情報を返す」と説明した。

 さらに、今回のデモには含まれないが、視線の活用では、クルマのウィンドウを見ながら「あの窓を開けて」などと発話してパワーウィンドウを作動させたり、車内で点灯した警告灯を見て意味を訪ねたり、フロントウィンドウに半透明のスクリーンを装着して、表示されている選択肢から目で見て選ぶといったこともマルチモーダルのユーザーインターフェースとして考えているとした。

 また、既存の周辺検索は自分を中心とした円の範囲から目的地を選んでいたが、ドライバーの視野から検索するため、セレンスが専用の3Dマップを構築。例えば「このお店やってるの?」と聞くと店舗の情報を返してくれる。静的な情報だけでなく時刻情報とひも付ければ、イベント開催時に会場を見ながら「今、何やってるの?」と聞けばイベント情報を返すこともできる。これらはデータソース次第だという。

お台場で視線検知技術を試す

 視線検知技術を搭載したデモカーはメルセデス・ベンツ「Vクラス」。お台場~有明のエリアをひとまわりするコースでデモが行なわれた。Cerence Japan セールスエンジニアの野中新一郎氏が運転しつつ、デモとして質問を発話して、安全に走行しながらさまざまな情報を得ることができることをアピールした。

運転席前方にカメラと赤外線センサーがあり、両者でドライバーの視線を検知

 デモカーでは運転席の前にカメラと赤外線センサーが設置され、両者でドライバーの視線を検知する。

 運転する野中氏が視線を向けて「あの建物は何?」などと質問すると、それに合わせた情報が画面表示と音声で説明される。また、施設の概要や営業時間、電話番号、さらにホテルなら価格帯、評価点なども返答してくれる。なお、今回はコンセプトのデモということで、説明されるデータはデモ用に用意したものを使っているが、実用化される時にはコネクテッド化を想定しており、お店などの情報にはリアルタイムの評価が加わるという。

お台場~有明のエリアを走行してデモを実施。「あの建物は何?」などと質問していく

 デモでは、隣り合った店舗でも視線を向けながら「あのお店は何?」と言葉で指定するだけで必要なお店の情報が得られることを実演。話した言葉の認識は多少取りこぼすことはあっても、実用的な応答が行なわれた。あくまでデモ用のデータを用いた試乗なのですべての情報が得られるわけではなかったが、実用化時にはクラウドのデータも活用してリアルタイムのデータを提供していくという。

セレンス「Cerence Multi Modal」デモ01(1分42秒)
セレンス「Cerence Multi Modal」デモ02(1分33秒)

 また、今回の音声指示ではウェイクワードを使わない技術を採用。例えば「ハイ、メルセデス」などのワードを口にしなくても、いきなり音声で指示ができる。常に言葉を監視することになるが、原則として音声データは車内で処理され、外部には送信しない。リアルタイムな情報を得る必要ある場合にはクラウドから情報を得るが、プライバシーや通信費に配慮したシステムになっているという。

 地図はオープンソースのものを使っているが、商用サービスとなった場合は専門の地図ベンダーと共同し、地図ベンダーのデータを使うことになる。

ニュアンスからオートモーティブ部門が独立したセレンス

Cerenceについて

 今回は視線検知技術のデモのほか、10月1日に発足したセレンスについても村上氏から説明された。

 セレンスは従来のニュアンス・コミュニケーションズからオートモーティブ部門が独立して誕生した会社で、「コネクテッドカーと自動運転技術に向けたAIアシスタントのリーディングプロバイダー」としている。

 より安全で充実した車内体験をすべての人々に届けるというビジョンを掲げ、コネクテッドカーや自動運転技術のためのデジタル・プラットフォーム・ソリューションを通じて自動車エコシステムの発展に貢献することをミッションとしている。

 ニュアンス・コミュニケーションズの時代から音声認識技術で知られており、メルセデス・ベンツの「MBUX」の音声認識をはじめ、採用が広がっている。分離後はニュアンス・コミュニケーションズとの資本関係はなく、オートモーティブ事業だけを手がけて年間で330億円ぐらいの売り上げを見込むような規模感の会社になるという。

 また、分離したセレンスのCEOに就任したのは、外部から起用されたサンジェイ・ダワン氏。ハーマン・インターナショナル・インダストリーズでCTO兼コネクテッド・サービス部門プレジデントを務めていた人物という。本国のオフィスはニュアンス・コミュニケーションズ時代と変わらず米国 マサチューセッツ州にあり、ニュアンス・コミュニケーションズと同じ街路に位置する。

Cerence Japanについて
Cerence Inc.の概要
CEOに就任したサンジェイ・ダワン氏

 ビジネスとしてはオートモーティブアシスタントを実現するエンドトゥエンドのソリューションを提供。5つのポートフォリオがあり、その1つ目が自動車のヘッドユニットに搭載されるソフトウェアとなるエッジ製品となる。

 セレンスの成長を担う3つの柱として「採用率」「1台あたりの売上」「マーケットシェア」を挙げ、採用率は「2019年第1四半期に出荷された主な乗用車のおよそ54%でセレンスのエッジ、またはクラウドとのハイブリッドを含む製品を採用」とした。

ポートフォリオ
セレンスの成長を担う3つの柱
プロダクト・ノベーションのロードマップ

 また、村上氏は「セレンスのコア技術は音声だが、この先は音声プラスアルファのものが入ってくる」としており、セレンスの技術の見通しを表すロードマップでは、2020年には「コア領域の拡張」としてコア技術自体とサポート地域の拡張を図り、2021~2022年には「ユーザー体験の拡張」として、感情AIや自動運転対応などを実施。そして2023年以降は「新技術への対応」としてAR(拡張現実)などに対応していくとした。

Introducing Cerence