米スパンション、自動車マーケット向けに音声認識コプロセッサを発表

Photo01:スパンション 上級副社長兼最高技術責任者のサイード・テラーニ博士

2012年7月13日



 米スパンションは7月13日に都内で記者発表会を開催し、同社が発表したアコースティック・コプロセッサの詳細を説明した。とか書いて分かるのは僚誌PC Watchを普段から愛読されている読者だけであろう。そこでもうちょっと砕いてご紹介したい。

 スパンションはNOR Flash Memoryの業界最大手である。Flash Memoryといえば、スマートフォンとか最近だとSSD(Solid State Drive)に入っている、大容量の記憶素子のアレである。実はこのFlash MemoryにはNAND FlashとNOR Flashという2種類があり、スマートフォンとかSSDに入っているのはNAND Flashの方である。もう1つがスパンションの提供するNOR Flashというもので、様々な組み込み機器に利用されている。

 この「組み込み機器」の1つに、自動車の車載装備があり、そんなこともあってスパンションは自動車マーケットで圧倒的なシェアを確保している。また同社はそういうわけで、自動車会社や関連会社の多い日本での売り上げの比重がかなり多い(2011年第4四半期など、日本における売り上げは全体の37%にも及んでいる)。外資系の半導体ベンダーで、ここまで日本の売り上げが多いメーカーは非常に珍しいが、その殆どは日本系の自動車関連業界からの売り上げとなっている。

 そんなわけで同社は日本を非常に重視しており、今回も同社CTO(最高技術責任者)がわざわざ来日しての説明会となった。

 さてそのスパンションの製品は何か?というと、音声認識のためのコプロセッサである。コプロセッサ、というのは補助的な役割を果たすプロセッサの意味である(このあたりは後でもう少し細かく説明するので今は流してほしい)。

 車とドライバーの間のインターフェースは、現在はハンドル操作やペダル/レバー/スイッチ類がメインだが、これに加えてタッチ・音声・ジェスチャーといったものが今後多く登場してくることになる(Photo02)。今回はこの音声をもうすこし何とかしたい、という要望から生まれたものである。

 例えばAppleがiOS 5で提供を開始したSiriは、お手元のiPhoneで利用できるものの、まだまだ誤認率は高くないし、何よりネットワークに繋がっていないと利用できない。iPhoneはこれでいいとしても、車載向けにはまだ「常時接続が前提」は難しい。通信料のことは別に考えるとしても「トンネルに入ったら電波が切れたので音声認識使えません」「渋滞中でネットワーク環境が悪いので、認識率が低いです」では受け入れてもらえないからだ。

 ところが今度は認識率の低さが際立つことになりかねない(この理由は後述)。これを解決するのがアコースティックコプロセッサである(Photo03)。

 このコプロセッサは、スパンションに加えてニュアンスコミュニケーションズというこれもアメリカの会社であるが、そこと共同で開発を行った。もっと正確に言えば、ニュアンスコミュニケーションズの持つ音声認識技術を高速に実行するコプロセッサをスパンションが作った、というのが正しい(Photo04)。

Photo02:というよりもタッチは既にカーナビなどで実現しており、次は音声の番である。ジェスチャーはその先、ということになるだろうPhoto03:カーナビでもなんでもいいのだが、通常は真ん中にアプリケーションプロセッサがあり、これが音声認識も含めて処理をするのが一般だが、コプロセッサは図左のように、音声認識にまつわる処理を別チップで行うことになる。あくまでも音声認識「だけ」をするので、プロセッサではなくコプロセッサ、という呼び方をするPhoto04:本来、音声認識はさまざまな用途に利用できるが、今回はまず車両向けに専念する、ということでこのパートナーシップが実現したそうだ

 ここからはそのニュアンスコミュニケーションズの日本法人であるニュアンスコミュニケーションズジャパンの村上久幸氏(Photo05)が、同社の製品についての説明を行った。

 同社は4つのビジネスに向けたソリューションを提供している(Photo06)。

 エンタープライズ、というのは例えば電話サービスの機械応答システムである。日本だと「XXXの方は1を押してください」といったシステムがまだ多いが、米国だと「XXXの方はYYYと仰ってください」という方式が次第に一般的になりつつある。こうした際に音声認識が必要とされるわけだ。

 特にこれが顕著なのが車向け(Photo07)である。最初に例であげたiOSのSiriはずいぶん有名になったが、これ以前からFordはSyncというシステムを自社の車全てに採用しており(Photo08)、これがあまりに普及した結果として競合メーカー(例えばGM系で使われるOnStarなど)が後追いでこうしたシステムを搭載した結果として、一気に普及している。

 日本でこれが普及しないのは、過去の例(ご存知かどうか判らないが、2002年にIBMはViaVoiceという製品をリリースしており、一時期大いに盛り上がったのだが、結局認識率がそれほど高くないとか、最初にViaVoice側に学習させないといけないという手間のため、廃れてしまった)で音声認識に懲りている人が多いためではないか? という話であった。

 ただ、今はSiriの普及などもあって、改めて音声認識のニーズが高まりつつある(自動車業界は、「若い人には普及してゆくと思う」という認識を持っているそうである)。

Photo05:ニュアンスコミュニケーションズジャパン オートモーティブ&コンシューマエレクトロニクス ビジネスユニット マーケティングマネージャの村上久幸氏Photo06:PDF関連は、元々ニュアンスコミュニケーションズが創業したときのビジネスだそうで、音声認識は後追いで追加されたというビジネスだそうだが、様々な音声認識関係を手がける企業を合併吸収してゆくことで、現在この分野では世界でNo.1のポジションにあるらしい。大雑把に言えば70%近いシェアだそうだが、言語によってはそれ以上のシェアを持つ場合もあるそうだPhoto07:例えば日米で比べた場合、音声認識システムをドライバーが使う率は、日本では30%程度なのに米国では80%に達しているらしい。この差の要因に関しては、単に認識率の問題だけではなく、音声認識を使ってもらえるようにするための諸々の配慮の違いもあるだろう、という話であった

 さてその音声認識だが、内部的にはこんな作業となる(Photo08)。最近はプロセッサの性能が急速に上がってきたとはいえ、高い精度でこれを実現するためにはまだまだ負荷が大きく、車載機器に搭載できるレベルのCPUでこれを実現するのは結構大変である。

 特に難しいのは、自動車業界では「ある1カ国の言語だけに対応」とはなかなか行かないことだ。例えば日本語だけに限って言えば、富士通を初めとするいくつかの研究所が日本語の認識を長く研究しており、こうしたものを使うという案もある。ところが、その車を海外に輸出しようとすると、当然輸出先の言語に合わせる必要があり、こうなると日本語オンリーの認識技術では対応できない。しかも相手先が英語とは限らない(ヨーロッパなど、複数の言語が入り乱れているからだ)わけで、こうした複数言語に対応する音声認識技術を、ということになると必然的に同社のソリューションになるという話だった(Photo09)。

 では具体的に自動車における音声認識の用途とは何か? というのがPhoto10。いきなり全部の用途に、というわけではないにせよ、どんどんこうした用途に使われてゆくことになるだろう。将来的には様々な携帯デバイス類への融合や、パーソナライズを進めてゆくことで、より使いやすい環境を作る、というのが同社の目標であるとしている(Photo11)。

Photo08:まず質問を受けると、それをデジタル波形にしたうえで、意味解釈をし、推論を行い、その結果として必要ならWebサービスなどに問い合わせし、その結果を再び音声に変換して出力するという形になるPhoto09:自動車関連の主要OEM先。なんか見たことのある会社名が山ほど
Photo10:このうち、ナビゲーションに関しては一部のPND(Personal Navigation Device:携行型のナビ)などで採用されているし、iPhoneやAndroid携帯を使っている人ならば既にSiriやGoogle Navigationで音声による検索が可能だから、それほど違和感がないというかイメージが掴みやすいだろうPhoto11:このうちパーソナライズに関しては、単に「日本語」でひと括りにするのでなく、男性/女性とか方言、しゃべり方のパターンなどに応じた対応をしてゆくことで、より高い認識率を実現するのがまず第一歩、ということになる

 

Photo12:マーケティング&ビジネスデベロプメント担当副社長のアルビン・K・ウォン氏

 ここで説明は再びスパンションのアルビン・ウォン氏(Photo12)に切り替わり、もう少し内部の解説が行われた。

 まず従来のアプリケーションプロセッサは、音声認識をやっている最中にも、他にもさまざまな処理を行う必要がある。このため、演算性能に加えてメモリの帯域も不足しがちになる(Photo13)。

 Photo14は、音声認識の一般的なアルゴリズムである。まずマイクからの入力を、ノイズキャンキャンセリングなどを行って不要な雑音を削除した上で、デジタル化する。このデジタル化した音の波形(これを音紋と呼ぶ)をデータベースと比較し、「なんと言う音を発声しているか」を確定させる(音声スコアリング)。この結果を元に、今度は言語データベースや辞書データベースと突合せをかけて、どんな言葉を発したかを確定させることになる(Photo14)。

 今回のスパンションのアコースティック・コプロセッサは、この音声スコアリングをハードウェアで実行する(Photo15)ものとなる。これはあくまで音声スコアリング「だけ」を処理するので、全体としてはまだアプリケーションプロセッサが必要である。そんなわけでコプロセッサ、と呼ぶわけだ。

Photo13:メモリ帯域は、後述する音紋データベースとの照合、という部分で必要になってくるPhoto14:もっとも音声スコアリングで100%確定は難しいので、「多分これだと思うけど、こっちかもしれない」という具合に、複数の発声にスコアをつける形で返し、あとは言語あるいは辞書との突合せで確定させることになるPhoto15:上にもあるが、従来の処理だと、この音声スコアリングが音声認識全体の処理の50~70%を占める、非常に負荷の高い部分である。これをコプロセッサ側にやらせることで、処理が高速化されるという訳だ

 さて、このコプロセッサにより負荷が減るのは分かるだろうが、なぜこれが高精度になるか? これは音紋データベースのサイズに関係する(Photo16)。

 ニュアンスの場合、この音紋データベースはCompact/Standard/Largeの3種類のサイズがあるそうで、基本的には大きなデータベースを使うほど精度が上がることになる。ただ大きなデータベースはその分メモリを多く占有するし、また大きなデータベースほど検索に時間がかかる。このためアプリケーションプロセッサでこれをやると、大量のメモリを占有し、かつ検索の時間も長くなる。これはレスポンスタイムの悪化やコストの増加に繋がるので、結局のところこれまでは「ほどほどの検索」に留めており、これが認識率の悪さに繋がっていた、としている。

 ところがアコーシティック・コプロセッサはこの音紋の検索に最適化したロジックを搭載しており、また本体とは別に音紋データベースを搭載しているから、従来より大量のデータベースを従来より高速に検索可能で、この結果レスポンスタイムを向上させながら精度を上げることが可能になった、というわけだ。

 これは特に、今後の展開にも役に立つ。例えば日本においては日本語と、せいぜいが英語があれば十分であるが、ヨーロッパ地域であればもっと沢山の言語に対応する必要がある。また先にもちょっと触れたが性別とか方言などを積み重ねてゆくと、音紋データベースはどんどん肥大化することが避けられない。ところがアコースティック・コプロセッサを使えば、こちらのデータベースの容量を増やすだけでこうした改善が実現できるので、対応が容易という話である(Photo17)。

Photo16:ちなみにデータベースは語彙以外にもいくつか精度に起因するパラメータがあり、こうしたパラメータへの対応を充実させればさせるほどデータベースのサイズが増えてゆくそうであるPhoto17:Nuanceによれば、低価格向けは1~3言語だが、高級向けでは10言語以上というものも珍しくないらしい

 最後に、簡単なデモの実演があった。これはマイクに住所をしゃべると、その住所をGoogle Mapを使って検索するというものであるが、アコースティック・コプロセッサを使わない場合(Movie01)は8.7秒かかっていたのが、アコースティック・コプロセッサを使うと3.4秒にこれが短縮される(Movie02)というもので、またこの際の処理負荷は半分に減ることが示された(Photo18)。

 もちろん、こうした数字はどんな言葉かで当然変わるが、スパンションとしてはこのアコースティック・コプロセッサを使う事で反応時間が半分になり、アプリケーションの処理負荷も半分に減ることをアピールした(Photo19)。

・Movie01

・Movie02

 

Photo18:このデモに使われたボードはまだ試作品ということで写真撮影は禁止であったPhoto19:精度に関しては、データベースの規模で変わってくるということもあってか今回は明確なデータは示されなかった

 ちなみにこのチップは現在国内の自動車メーカーに提案を行っている最中である。日本語化に関しては、音紋データベースを日本語対応にするだけでよく、アルゴリズムの変更などは必要ない(村上氏)とのことで、またアプリケーションプロセッサの種類は問わない(どんな種類のアプリケーションプロセッサを使っていても対応できる)ということで、既にNuanceの音声認識ソリューションを使っているベンダーにアプローチを掛けている模様だ。気になるのは価格だが、当然これはどんな音紋データベースを搭載するかによって変わってくるということで、一概には言えないとの話であった。

 まあ、今すぐ機器メーカーがこれを採用したとしても、搭載製品が市場に出てくるのは早くて2~3年後(自動車メーカーだと3~5年)になると思われるので、今すぐどうこうという訳ではないが、自動車のインフォテイメントの進化に必要なコンポーネントがまたひとつ揃ったわけだ。

(大原雄介)
2012年 7月 17日