ニュース
ニュアンス コミュニケーションズ、音声認識技術などの技術説明会を開催
音声認識の精度が自動車の評価にも影響
(2014/3/27 14:26)
ニュアンス コミュニケーションズは3月26日、都内で報道陣に対して技術説明を行った。先日、事業戦略説明会を行った同社だが、今回は音声認識技術に対する理解を深めるべく、追加で説明を実施したものだ。
音声認識は「音響モデルをどれだけ持っているか」が勝負
音声認識について説明を行ったのは、ニュアンス コミュニケーションズ 音声UIエキスパートの平沢純一氏。音声認識の方法としては、まず、音声の特徴を抽出。特徴量の列を探索部でパターンマッチングさせ、単語列へと変換される。その際、同じ「あ」という言葉があっても、話す人の年齢や性別によって内容はまちまち。また、「あ」を含む言葉はあいうえおの「あ」のほか、「か」を発音したときに母音としても含まれる「あ」も存在する。そのため、それぞれに異なる大量の多様な音響モデルを持っているかどうかが音声認識の性能に大きく影響する。ニュアンス コミュニケーションズの場合、過去に事業統合を繰り返して現在に至る会社経緯もあり、音響モデルの蓄積は非常に多いとしている。
そして、次にグラマ(文法)で、確率言語モデルによって音声を認識していく。グラマは語と語の連接の仕方を記述したルールの集合で、どの単語にはどの単語の並びが多いのかをグラマとして作成、グラマから予測される言語的特徴と音響的な特徴を合わせて認識する。
機器の操作コマンドのような短い発話内容の認識ではグラマが有用だが、長い文章や自由文に対応できるグラマを作成するのは困難。そこで、大量の「テキストコーパス(発話例)」を収集し、語の並び方を確率的にモデル化する「確率言語モデル」を用いた認識を行っている。
クラウドを活用して音声認識
そして、現在の音声認識エンジンは「組み込み型」と「クラウド型」の2種類がある。組み込み型は単体で音声認識が可能な方式で、クラウド型は1度発した言葉の要素をインターネット経由でサーバーに送信、認識された結果がインターネット経由で戻ってくる。
音声認識を実際に行うときは、頻繁に使う機能は内部で処理。もっと複雑で幅広い言葉のやりとり、いわゆる“大語彙”の扱いについてはクラウドに渡すという方法を採用していることが多い。
この方法は、同社技術が採用されたパナソニックの液晶テレビ「スマートビエラ」の音声操作機能対応機種でも利用されている。スマートビエラの場合、テレビの受信チャンネル切り替えといった定型的な音声認識は内部で処理を行い、音声を使ってWebサイトを検索をするようなときは、数多くの言葉に対応するためクラウド型を用いている。
一方、クラウド型を採用すると問題になるのはセキュリティだ。例えば自動車で音声認識をする場合、高級車の車内で発せられた言葉の認識をクラウドで処理しようとすれば、形式はどうであれ認識すべき会話内容すべてがインターネット上を流れることになりかねない。
これに対しては、ニュアンス コミュニケーションズでは音声認識はするが、音声を統計的に処理するだけで会話内容の全部を記録・解析することはないとしている。そして、伝送中のデータについてはHTTPSプロトコルの暗号化を利用している。クラウドに送信するデータ容量については、圧縮する機能を備えているものの、通信速度が高まったことから圧縮せずに送るケースも多いとのこと。
なお、自動車における操作インターフェイスでは、同社は音声認識のほかに文字認識も提供している。今後、両者がどのように発展するかという点については、自動車メーカーが考えるクルマの操作方法や提供する体験といったクルマのコンセプトに依存するとしている。
音声区間を検出するノウハウも必要
次に、音声認識を進める上で必要なのは「音声区間検出」。自動車の音声認識では発話ボタンを押してから言葉を発する仕組みのシステムが多いが、発話ボタンといったものを備えなければ、常に音声認識が稼働していなければならず、待機電力が大きくなると同時に、どの部分から認識すべきかを機械が自ら判断する必要がある。
音声区間検出の検出精度が低ければ、発話しているのに認識しないという問題のほか、人間同士で会話しているときに機器が勝手に反応するといったトラブルにつながっていく。誤動作しても大きな問題にならない機器やコマンドならよいが、特に自動車の場合は誤作動が安全性を脅かす可能性もあるため、現在はボタン操作が好まれている。
発話ボタンを用いない方法としては、「wake up フレーズ」という音声認識の開始を音声で指示する方法もある。この場合、待機時に音声認識のエンジンはwake up フレーズの出現だけを待っていればよくなる。
音声認識を助ける音声加工技術
音声認識部分とは別に、発話者の音声をより明瞭に認識する技術の開発も進めている。ノイズのない音声を拾うことで音声認識の精度がより高まるほか、音声認識以外でもハンズフリー通話で利用された場合に音声を明瞭化する効果も期待できるからだ。
車載・コンシューマ機器ビジネスユニットの滝下美由紀氏が行った説明によると、同社では「音響ビームフォーミング技術」などによって発話者の位置を特定し、その方向に絞った音声のみを採取するといったことを可能にしている。このビームフォーミングまでは競合他社製品でも行っているが、さらに同社では独自のポストフィルターを採用し、周囲のノイズを低減させている。
説明では実際に2つのマイクアレイを使い、運転席と助手席に見立てた2人が別々に話した状況で、どれだけ片方の言葉を認識できるかのデモを行った。
現在、音響ビームフォーミングでは2個以上のマイクアレイが必要で、より精度を高めるために3個以上のマイクを装備する例もあるというが、国内自動車メーカーではまだ採用例がない。
音声認識は自動車の評価にも直結
オートモーティブ ビジネスユニット プリンシパル マーケティングマネージャーの村上久幸氏からは、同社のサービス概要や現在の状況などが説明された。なかでも、昨今の音声認識の世界では、JDパワーによる消費者調査が注目されているという。
JDパワーは自動車の分野でも調査を行い、ブランドの序列が発表されている。調査結果によっては自動車の売上が上下するので、アメリカではセンシティブな部分になっている。かつての調査内容では車載ITの音声を使ったインターフェースに関する質問がたった1つだけ存在し、これにはハンズフリー通話や音声認識などすべてが含まれていた。Bluetoothの接続がうまくいかないだけでも、すべてを1項目で×の烙印が押されるという調査だった。
これが実態を反映していないということで、最近の調査では調査項目が増えてより状況を細かく調査するようなったが、メーカーにとっては車載ITの得点が大きく下がることになりかねないため、注目を集めているのだという。
【訂正】記事初出時より、一部発言内容などを訂正しました。