ニュース

ニュアンス コミュニケーションズ、音声信号処理技術「VoCon SSE(Speech Signal Enhancement)」技術説明会

In-Car Communication(ICC)搭載のメルセデス・ベンツ「Vクラス」の体験も

2016年2月23日 開催

 ニュアンス コミュニケーションズは2月23日、「VoCon SSE(Speech Signal Enhancement)」の技術説明会を開催した。同社は音声認識に関して高い技術力を持つメーカーで、コンシューマ向け製品としてパソコン用音声認識・音声入力ソフトウェア「ドラゴンスピーチ」シリーズをリリースしているほか、近年では車載分野にも積極的な展開を行なっている。

 VoCon SSEは、ハンズフリー通話や音声認識などの際に利用される音声信号処理技術で、「エコーキャンセル」「ノイズ抑制」「風切り音抑制」「非定常ノイズ抑制」といった技術的特長を持つのが特長。

ニュアンス コミュニケーションズ ジャパン株式会社 オートモーティブ セールスエンジニア 滝下美由紀氏

 ニュアンス コミュニケーションズ ジャパン オートモーティブ セールスエンジニア 滝下美由紀氏は、同社の音声信号処理技術について「我々の音声認識エンジンである“VoCon Hybrid”、また、それを搭載した“Dragon Drive”というソリューションにおいても、ドライバーの声をクリアな状態にして音声認識エンジンに渡すという、この部分にSSEを使っておりまして、音声認識の性能を高めるためにもとても重要な技術になっている」と説明。

 続けて「エコーキャンセルやノイズキャンセルをやっている会社は多くあります。ただ、我々の場合はその技術をベースとして、クルマの場合であればその利用シーンで想定されるさまざまなノイズに対応している技術が、SSEというソフトウェア1つで提供できていることが特長になる」と、優位点をアピールした。

 こうした音声信号処理技術は、車内や屋外など高騒音下での音声認識率の向上、音声認識ガイダンスを流している時にユーザーが好きなタイミングでコマンドを入れることができる「バージイン」といった機能の実現に使われている。

 滝下氏は音声認識の妨げとなるノイズについて、「ノイズは大きく分けて定常ノイズと非定常ノイズの2つがある。定常ノイズは走行音やエンジン音といった一定のもの。非定常音はガタガタ道などでの“がたん”と言う音。それを抑制することがクルマの中では重要になってくる」と述べるとともに、「エアコンやオープンカーなどの風切り音がマイクの中に入ってくる。この風切り音は定常ノイズとはちょっと違う独特な音をしており、それを抑制する技術がクルマの中では使われている」と、VoCon SSEの役割を紹介した。

 具体的にVoCon SSEがどのようなプロセスを行なっているかというと、ハンズフリー通話の場合、車内に設けられたマイクで拾った音を「エコーキャンセラー」「ノイズリダクション/エコーサプレッション(残響音抑制)」「イコライザー」「ゲインコントロール」と順次処理。逆に携帯電話側からの音声もイコライザー、ゲインコントロールといった処理を行なってからスピーカーに出力されている。こういった処理を施すことで、走行中の車内でのクリアな通話や音声認識率の向上を実現している。

 こうしたハンズフリー機能の需要は規制が厳しい欧州や北米で高く、大衆車から高級車まで幅広く搭載されている。これを実現するためには車内にマイクを設置する必要があるが、車種によってマイクが1つなことがあれば、上級車種になると複数(運転席および助手席)あることもある。VoCon SSEの場合、設定を切り換えるだけでどちらのシステムにも対応することができ、そうしたフレキシブルな部分が「ご好評をいただいている」といい、国内外の自動車メーカーはもちろん、サプライヤーにも広く採用される一因となっている。

音声信号処理技術
技術的な特長
シングルマイクでのシステム構成例
マルチマイクでのシステム構成例
ビームフォーミング式マルチマイクでのシステム構成例
非定常雑音の抑制
SSEによるノイズ抑制

Passenger Interference Cancellation(PIC)

 マルチマイクの応用例として「Passenger Interference Cancellation(PIC)」がある。これは同乗者の声をキャンセルするためのもので、具体的にはドライバーが音声認識を必要とした際、同乗者が同時に話しをしていても認識を可能とするシステム。ドライバーと助手席の同乗者が同時に喋った場合のドライバーの発話の誤認識率は停車時で50%あまりだったものが、この処理を施すことにより2%以下と大幅に改善。「後部座席にもマイクを装着したシステムの場合、後部座席の人の声もキャンセルすることができ、子供が座っている場合などに特に有効なシステム」とした。

 動画ではPICの応用で「ハローテトラ」をキーワードに、発話者を特定してコマンドを認識、実行している。4つのマイクを使って発話者のコマンドのみを抽出することで、認識率を高めているのだ。

PIC処理
PIC処理により音声認識率を向上
PICシステム図
マイク4本による処理を実演
PIC処理の実演

In-Car Communication(ICC)

 もう1つの応用例となるのが「In-Car Communication(ICC)」だ。これはミニバンなど前後に距離がある車内での会話をサポートするシステム。

 走行中など高騒音下では、ドライバーが前を向いてしゃべった場合、発話エネルギーが前方に強く放出される特性上、後部座席ではどうしても聞き取りにくくなってしまう。そのため、大きな声を出したり、後ろを振り返ってしゃべったりと、コミュニケーションを取るのが難しい。こんな時に役に立つのがICCというワケだ。

 ICCの内部で行なわれているのはノイズリダクション、ハウリング抑制、ゲインコントロール、イコライザーと、VoCon SSEとほぼ同様。ただし、遅延があるとしゃべった声とスピーカーからの声に差が生じてしまうため、リアルタイム性が重要であるという。

 同システムにはフロントのマイクのみを使った一方向会話システムと、リアにもマイクを設けた双方向会話システムの2パターンがあり、前者は2014年にメルセデス・ベンツ「Vクラス」に搭載され、後者は2013年に世界初のシステムとしてジャガーが搭載。後発のVクラスが一方向となっているのは、前述したように発話エネルギーは前方向に強く放出されるため、後部座席からの声が運転者に届きやすく実用上は十分だからだ。

 必要なハードウェアスペックは一方向処理で、CPUが120~150MHz程度、RAMが25kB、ROMが250kB程度。双方向の場合、スペックはほぼ倍となりCPUが300MHz程度、RAMが50kb程度となる。サンプリングレートは24kHz程度となっており、処理に要する時間はオーディオ入力からオーディオ出力の“End-to-End”で8.4ms~9.3ms程度に抑えられているという。

ICC
ICCのシステム構成例
一方向会話システムでも実用的な理由

 説明会の後、メルセデス・ベンツ「Vクラス」に乗車してICCを体験することができたが、その効果はかなりのモノ。動画ではカメラのマイクで音を拾っているため若干分かりづらくなってしまっているが、実際に聞き比べるとその差は歴然。遅延による不自然さを感じることはまったくなく、普通に会話している声が聞こえている感じだった。

 実はこのICC、Vクラスのカタログでもまったく触れられていない機能だが、多人数乗車の機会が多いミニバンにはぜひとも欲しいと思えた。スペック的には今時の車載器なら十分クリアしているレベルだから、今後、国産車はもちろん多くのモデルに搭載してほしいところだ。

メルセデス・ベンツVクラス。ロング以上に標準となる“Burmesterサラウンドサウンドシステム”の1機能として車内通話(ICC)を装備
フロントシート上部にマイクを装備
3列目シート横のスピーカーから出力される
高速走行時に効果を体験
車内通話メニューでON/OFFを切り替える
ICCの効果

(安田 剛)