ニュース

【GTC2014】デンソーがディープニューラルネットワークとTegra K1を使った歩行者認識をデモ

単眼カメラで、歩行者の身長と距離、体の向きをリアルタイム解析

（2014/4/17 13:35）

2014年3月24日～27日開催（現地時間）

　半導体メーカーのNVIDIAは、同社のソリューションや技術などを同社の顧客や開発者に対して説明したり、大学、研究機関、一般企業からの発表などが行われたりするイベント「GTC（GPU Technology Conference） 2014」を3月24日～27日（現地時間）の4日間にわたり、米国カリフォルニア州サンノゼにあるサンノゼコンベンションセンターで開催した。すでに発表のいくつかは記事にしてきているが、このGTCには数々のセッションが設けられている。

　セッションの内容は多岐にわたり、グラフィックスの基礎から、実際の応用、そして最先端の研究活動の発表などだ。本記事では、デンソーの先進開発を行っているデンソーアイティーラボラトリが行ったセッション「Beyond Pedestrian Detection: Deep Neural Networks Level-Up Automotive Safety」を紹介していく。

デンソーアイティーラボラトリがTegra K1の車載向け開発キット「JETSON Pro」で行ったセッション「Beyond Pedestrian Detection: Deep Neural Networks Level-Up Automotive Safety」

プレゼンテーションを行った佐藤育郎氏

　プレゼンターは、デンソーアイティーラボラトリ研究開発グループに所属する佐藤育郎氏と、新原英樹氏。セッション内容はタイトルから分かるとおり、ディープニューラルネットワークを活用することで、自動車の安全性を向上させようというものだ。自動車の今後の方向性として、まわりの環境を自動車が認識することで、衝突安全のための自動ブレーキ、快適運転のためのオートクルーズなどのより高度な技術の実装がある。事故が減り、運転が楽になることには社会的要請もあり、熾烈な開発競争が繰り広げられている分野だ。

　デンソーの発表内容は、そうした先進安全技術のベースとなる環境認識をディープニューラルネットワークによって実現しようとするもの。単眼カメラで取り込んだ映像をNVIDIAのTegra K1を搭載した開発キット「JETSON Pro」でリアルタイム処理し、人の身長、カメラからの距離、人の体の向きをはじき出していた。

　佐藤氏によると、将来的には人の身長などを認識するだけでなく、“人が何をしようとしているのか？”まで認識できるものにしたいという。たとえば「人がスマートフォンを持っているのか？」「年齢はどのくらいなのか？」など多様な情報を得ることで、よりよい制御につながるベース情報を構築していく。

　そのために採った手法が、ディープニューラルネットワークで、Tegra K1の搭載する192個のCUDAユニットにより車載サイズで実現した。ディープニューラルネットワークは、簡単に書くと人の記憶の仕組みを機械で再現していくもので、少し前には「Googleが猫を認識した」として話題となった手法だ。以前からあった画像認識の手法でもあるが、近年のコンピューティングパワーの爆発により現実的な手法としての見直しが進んでいる。

ADASについて。先進安全技術として、すでにクルマへの搭載が始まっている

ドライバーにもとめられるもの

人を認識すること

デンソーが目指すこと。人が何をしているのかまでも認識しようとしている

3つの技術的チャレンジ

なぜ、ディープニューラルネットワークなのか？

理由について

利用した技術

ディープニューラルネットワークについて

このような形でニューラルネットワークを組んでいく

　Tegra K1への実装になどについては新原氏が解説。今回は、140×60ドットのグレースケール画像を元に9レイヤーのニューラルネットワークを構築。Tegra K1搭載の車載向け開発キットJETSON Proのみによるものであることが紹介された。デモ環境を紹介したところで、JETSON Proと単眼カメラによるデモを開始。

Tegra K1を利用した理由。Tegra K1はディープニューラルネットワーク構築との親和性が高い

今回のデモの概要

データ構築について

JETSON Proの中にディープニューラルネットワーク構築を行った

DENSO GTC2014 Deep Neural Networks Level-Up Automotive Safety

新原氏を認識するデモ。Hは身長、Dは距離を表す。矢印は体の向きとなる

画面の隅に表示されていた処理速度。16～17fpsでの処理が行われていた

　デモはセッション会場を使い、佐藤氏が操作を、新原氏が認識される歩行者として会場内を移動した。新原氏がセッション会場を動き回ると、リアルタイムに新原氏の身長や距離データが更新されていく。これはあらかじめ新原氏個人の身長が学習されているのではなく、一般的な人のイメージがディープニューラルネットワークに学習され、カメラの高さ情報をもとに算出されているとのこと。また、新原氏が向きを変えるたびに新原氏の足下に表示された矢印も向きを変え、新原氏の体の向きを認識していることが分かる。この驚異的なデモンストレーションに会場はため息まじりの不思議な雰囲気となり、最後は盛大な拍手につつまれた。

　Googleの猫認識は、1万6000個のCPUコア、10億の接続ノードを用いて成されたもの。GTCでもディープニューラルネットワーク関連のセッションは多いものの、その多くは理論に関するものや、実装方法に関するものだった。一方、デンソーのデモはTegra K1の車載向け開発キットJETSON Proで実施したものであり、“今そこにある未来”としてTegra K1のコンピューティングパワーを如実に示したものとなる。

　デモの後、佐藤氏に認識人物数に確認したところ、「多数でも問題ない」とし、Tegra K1およびそのバックボーンとなっているCUDAの登場がディープニューラルネットワークを実装する大きな力になっているという。先進安全技術において物体の距離を測る方法としては、ステレオカメラを用いる方法や、ソナー・レーダーなどを用いる方法があるが、デンソーのこの方法は単眼カメラの映像で実現されていることから量産時に安価に実装できる可能性が高い。この点について確認したところ、多くのクルマに高度な機能を実装するにはシステムのコストダウンが必要との認識を示したものの、「デンソーが単眼カメラのシステムを発売するということではなく、将来の技術の方向性の1つとして研究を行っている」と語った。

　次世代のクルマをより多くの人々が楽しめるキーワードとして、今後ディープニューラルネットワークは話題になっていくのかもしれない。

（編集部：谷川潔）