GTC2015
顔認識や音声認識の誤認識を大幅に低下させる魔法の種とは?
Baidu Researchのウング氏が語るディープラーニングの活用法
(2015/3/23 00:00)
- 2015年3月16日~20日開催
- San Jose McEnery Convention Center
半導体メーカーのNVIDIAは、GPUソフトウェア開発者向けイベントとなる「GPU Technology Conference 2015」(以下、GTC2015)を、3月16日~20日(現地時間、以下同)の5日間に渡り、アメリカ合衆国カリフォルニア州サンノゼ市のSan Jose McEnery Convention Centerにおいて開催した。開催4日目となる3月19日の11時からは、3つめの基調講演が行われ、スタンフォード大学 准教授で、現在は中国の検索サイトベンダ「Baidu」(http://www.baidu.jp/)の研究所であるBaidu Researchの主任研究員であるアンドリュー・ウング氏が、今回のGTCのメインテーマでもあるディープラーニング(深層学習)をテーマに講演を行った。
ウング氏は長年にわたってマシンラーニング(機械学習)やディープラーニングについて研究してきたコンピュータ科学者で、Googleが2012年に公開した画像認識から1匹の猫を特定する研究を主導した研究者としても知られており、コンピュータ科学で有名なスタンフォード大学で准教授を務めている。その後2014年にBaidu Researchに主任研究員として加入することが発表され、現在スタンフォード大学に籍を置きながら、Baidu Researchでも研究を続けている。
。今回の講演では、Baidu Researchにおけるディープラーニング研究の現状、実際のアプリケーションへの応用例が説明された。
ディープラーニング研究が本格化したのはGPUの演算性能が格段に上がったから
ウング氏は、今回のGTCのメインテーマであるディープラーニングについて、今なぜディープラーニングが注目されているのかということについて話を始めた。「ディープラーニングという研究分野は以前もあった。それなのにここにきて再び注目されているのには理由がある。例えばロケットがなぜ飛ぶのかといえば、エンジンと燃料があるから。今のディープラーニングにはそのエンジンと燃料に相当するものがあるからだ」と述べ、ディープラーニング研究に必要な要素がそろったからだと説明した。
ウング氏によれば、ディープラーニング研究というロケットが離陸するために必要なエンジンとしては、より大規模なニューラルネットワークが構築できるようになったことが大きいという。ニューラルネットワークとは、ディープラーニングをコンピュータで行う時に構築する人間の脳をが考える構造を再現するような仕組みで、その演算には膨大なコンピューティング能力が必要になる。ウング氏は2007年当時のCPUの演算性能では100万接続のニューラルネットワークが限界だったが、それが2008年にGPUで演算するようになってからは1000万接続と10倍になり、さらにそれが2011年にクラウドサーバー上で多数のCPUで演算するようになると10億接続に、さらに2015年にGPUベースのHPCで演算するようになると1000億接続と、急速に演算性能が上がっていくことで、処理できるニューラルネットワークの規模が膨大になっていったという歴史を紹介した。それに合わせて、演算にかかる時間が急速に短縮されて、その結果としてディープラーニングの研究が盛んになったとした。
ディープラーニングの成果により顔認識の誤認識率はわずか0.15%に減少
そうした上でウング氏は、ディープラーニングのデータ処理の手法も研究が進み、さらに効率よくデータを処理できるようになったことが、“燃料”に相当する部分だとした。
その具体的な例の1つめとして、ウング氏は顔認識のエラー率について説明した。同氏が所属しているBaidu Researchの研究では、新しい手法を導入することで、どんどんとエラー率を改善しているという。他社が数%台のところもあるのに、同社の手法を利用した場合には既に0.15%のエラー率にまで下がってきており、顔認識の正確性が年々上がっているという。読者もおそらく経験があると思うが、SNSの機能の1つとして写真に写っている人物を自動で判別してタグをつけるというものがあるが、それが間違っている、つまりまったくの他人がタグづけられることが結構ある。その間違いが起きる可能性がエラー率で、それをできるだけ下げるべく、各社ともさまざまな手法で取り組んでいる。
SNSはデータがクラウドサーバー(インターネット側に置かれているサーバー)に置かれているため、そうした写真の顔認識も、サーバー側のCPUやGPUを利用して行っているが、そのアルゴリズムとしてディープラーニングが利用されるようになっているのだ。Baiduの顔認識のエラー率は0.15%になっており、ディープラーニングの研究成果を適用したからだとウング氏は説明した。
もちろん、そうしたディープラーニングの成果は、顔認識だけでなく、自動運転や介護、ホームセキュリティ、ウェアラブルなど様々な用途に使えるとウングは説明し、その具体的な例として、Baiduが計画しているウェアラブルデバイス"Baidu Eye"の動画を紹介した。Baidu Eyeは、メガネのように顔にかけるヘッドセット型のカメラで、ARの技術を利用したりすることができる端末となる。ビデオでは、人間が指で指示した範囲を画像検索するなどのデモが示された。その画像検索には、サーバー側でディープラーニングの成果が利用される、そうしたストーリーになる。
Siriなどの登場により注目高まる音声認識の認識率向上の背景にはディープラーニングが
次いでウング氏は、音声認識へのディープラーニング機能の実装に関しての説明を行った。ウング氏は「中国の視覚障害者のリー・チョンヤン氏は、従来はなかなか自分で活動範囲を広げることができなかったが、スマートフォンに音声認識の機能がついてからはそれが広がったと喜んでいる」と述べ、中国の視覚障害者の例を紹介し、音声認識へのディープラーニングの活用について説明していった。
音声認識と言えば、非常に古典的な技術だが、率直に言えば数年前まではあるけど使われない技術の代表のような存在だったといってよい。しかし、ここ数年は、AppleのSiriやGoogleの音声認識などの多くのユーザーが“割と使える”と感じている音声認識が増えている。つまり、従来よりも認識率が上がっているということなのだが、その認識率が上がった理由の1つがディープラーニングなのだ。
ウング氏は、Baiduが提供しているBaidu Deep Speechという仕組みを紹介し、音声認識を行う際に、ディープラーニングの手法の1つであるBDRNN(Bi-Directional Recurrent Neural Network)というニューラルネットワークを双方向で接続する手法を新たに導入することで、誤認識率を下げることに成功したという。
ウング氏が公開したスライドによれば、Appleの誤認識率が25%であるのに対して、Baiduのそれは10%強だという。ウング氏は実際に、NVIDIAのジェン・スン・フアンCEOの基調講演のビデオを元に音声認識をライブで行い、ノイズを付加した状態でもエラーなく音声認識出来る様子を紹介した。
ウング氏は「多くの人は95%の正確性が99%になったからといって違いは理解できないかもしれないが、その差は非常に大きくてまさに革命的な進化だ」と述べ、音声認識の認識率を上げていくことで、音声認識がスマートフォンのオマケ機能のような扱いではなく、さまざまなアプリケーションで利用される日が来るだろうと説明した。
講演の最後に、ウング氏はディープラーニングとビッグデータと組み合わせることによるメリットについて説明した。ウング氏は「Web検索や広告、データセンター管理、コンピュータのセキュリティといった用途で、ディープラーニングとビッグデータを組み合わせることはメリットがある」と述べ、ディープラーニングにはさまざまな可能性があると述べた。その上で「ディープラーニングはまだ成熟している研究ではなく、研究の余地がある。アイディアがあり、それに必要なコードがあり、さらに実験も必要だ」と述べ、詰めかけた研究者に対して今後も研究を続け、そうした成果を活用していくことが大事で、大きな可能性があると強調して講演を締めくくった。