ニュース
ニュアンス・コミュニケーションズ、BMW「7シリーズ」「5シリーズ」に搭載する最新の音声認識機能を実演
ローカルとクラウドのハイブリッドで処理をする音声認識・自然言語処理技術の実演を動画で紹介
2017年2月16日 14:30
- 2017年2月15日 実施
音声認識・自然言語処理技術を開発するニュアンス・コミュニケーションズ・ジャパンは2月15日、2017年型のBMW「7シリーズ」「5シリーズ」に搭載されている、同社の最新音声認識技術を採用したインフォテイメント端末を披露した。端末内のローカル処理とクラウド側の処理を同時に行なう「ハイブリッド」構成をとり、助手席からの不要な音声を取り除く機能、音声操作によるSMS作成・送信など、車載インフォテイメント端末としては世界初・日本初となる機能を多数実装している。
漠然とした要望から適切なスポット検索が可能
今回同社が披露したのは、車載端末組み込み用の新しい音声認識技術と、自然言語理解(NLU:Natural Language Understanding)に関わる技術。すでに販売を開始している2017年型のBMW 7シリーズに加え、この2月から発売したBMW 5シリーズに搭載されている標準カーナビ・インフォテイメント端末「iDriveナビゲーションシステム」に統合された形で提供される。日本仕様車だけでなく、多くのグローバル仕様車にも同じ技術が搭載されている。
最大の特徴は、車載端末に組み込まれたローカル側と、クラウドサーバー(Nuance Cloud Service)側のそれぞれで同時に音声認識、自然言語処理を行ない、高速なレスポンスで適切なコマンドの実行が可能な点。音声操作のボタン押下後に発話を開始すると、常にローカルとクラウドに音声データを送信。ローカル側のみで行なえる地名検索などは優先的にローカル側で処理し、自然言語処理が必要な音声についてはクラウド側で処理した後に結果を車載端末に戻し、コマンドを実行する。
この音声操作で行なえるのは、カーナビの目的地・スポット検索、メディアプレーヤー機能の楽曲検索・再生、ラジオ選局、スマートフォンと連携したSMSの文言作成・送信、天気予報の確認、車両情報のチェックなど。
例えばカーナビでのスポット検索では、単純に地名やスポット名で検索できるだけでなく、「コーヒーが飲みたい」や「お腹が空いた」といった漠然とした要望でも、近隣のコーヒーショップやレストランを一覧表示し、そのなかから行き先に設定できる。地名・スポット名を2語まで組み合わせることも可能で、「八王子のスターバックス」というように発話すると、東京都八王子市近辺のスターバックスコーヒーを検索して一覧表示する。
楽曲再生する際にも、「宇多田ヒカルのファーストラブを再生して」などと発話することで、車載端末に入れた記憶媒体(CD-Rなど)から楽曲を検索し、マッチする楽曲が見つかれば即座に再生を開始する。曲名の一部だけしか思い出せない時でも検索可能な「パーシャル認識機能」も搭載しており、「宇多田ヒカルのファーストを再生して」あるいは「宇多田ヒカルのファーストなんとかを再生して」といったしゃべり方でも「First Love」を再生する。
SMS送信機能では、「○○(人の名前)にショートメッセージを送る、△△△△(メッセージ本文)」というように、つなげて発話するだけで、相手にしゃべった内容のショートメッセージを送信可能。その他、「タイヤの空気圧は正常?」や「ブレーキパッドはまだ大丈夫?」と話すことで、車両が備えるチェック機能を呼び出し、安全を確認できる。
なお、「ヒートシータ―をONにして」といった発言も認識するが、こうした他の車両装備との直接的な連携は主に自動車メーカーの方針によってまだ実現に至っておらず、現在のところはヒートシータ―やエアコンの操作方法のガイダンス画面を表示するに止まる。
高精度に音声認識する多彩な工夫。将来的には常時音声認識も
これらの音声認識による操作をサポートする技術として、一般的にありがちな車載端末機能の階層構造を意識することなく、どの画面からでもドライバーが意図した機能を呼び出せる「ALL-IN-ONEメニュー」という発想が取り入れられている。また、運転席の天井と助手席の天井それぞれに設けられた音声入力用の2個のマイクを連携させることで、助手席側からの音声のみをキャンセルする「PIC(Passenger Interference Compensation)」機能を搭載。助手席に座っている人の会話がノイズとして混入することを防ぎ、ドライバーの発声がより正しく認識されやすくする。
さらに、待ち時間なしに次々と音声入力していける「バージイン(割り込み発話)」機能も備える。他の多くの音声認識機能では、一度音声入力した後、結果や次の操作を促すコンピューターの音声が流れている間、ドライバーは次の音声入力を待たなければならなかったが、同社のシステムでは待たずに音声入力できる。最近の電話のナビダイヤルのように、応答メッセージを最後まで聞くことなくダイヤル入力できるのに似たイメージだ。
これらの機能、技術を搭載したクルマは、今後BMW以外からも登場する予定。次世代のインフォテイメント端末向け音声認識技術も開発が進んでおり、現在はまだ搭載されていない人工知能技術を採用して、3語以上を組み合わせたコマンド実行も可能になる見込み。将来的にはボタン操作することなく、常にドライバーの声を拾い、音声操作を意図しているであろうタイミングを自動認識してコマンド実行したり、音声でドライバーに合ったプロファイル設定に切り替える機能などの実現を目指す。
音声認識技術を用いたサービスは、GoogleやAmazonなど海外企業の攻勢が目立つが、ニュアンス・コミュニケーションズ マーケティングマネージャーの村上久幸氏は、差別化のポイントとして「我々はテクノロジーを提供する黒子。車種ごとに、あるいはお客様がやりたいことに合わせて、個々のカスタマイズに応えられる」ことをアピールした。