ニュース

NVIDIA、ディープラーニングセミナーで自動運転AI開発に使用される「Tesla P100」日本初公開

ディープラーニングスパコン「DGX-1」で自動運転AI開発を加速

2016年7月22日 開催

リモートのDGX-1を使った学習処理のデモンストレーションも行なわれた。DGX-1が動作する様子を公開するのは世界でこれが初めてとのこと

 半導体メーカーのNVIDIAは7月22日、名古屋市内でディープラーニングに関するセミナー「NVIDIA Deep Learning Day 2016 Summer」を開催し、自動運転車においてもっとも重要な標識・障害物・歩行者等の認識処理を行なうためのディープラーニング向け最新GPU「Tesla P100」を日本で初めて披露した。また、このP100を8基搭載した同社初の“ディープラーニング用スーパーコンピューター”「NVIDIA DGX-1」のデモも世界で初めて公開した。

 そのほか、自動運転につながるディープラーニングの最新事情、同社が提供するディープラーニングを効率化するライブラリ、クラウドサービスのアップデート情報なども語られた。ここではセミナーのなかから、主にADAS(先進運転支援システム)や自動運転車にかかわる話題についてピックアップする。

従来の3倍の性能を持つ「P100」と、P100を8基搭載する「DGX-1」を紹介

 同社マーケティング本部の林氏がセミナーのなかで紹介した「Tesla P100」は、最新のPascalアーキテクチャー、3次元積層型メモリのHBM2などを採用し、倍精度浮動小数点演算で5.3TFlops、単精度で10.6TFlopsの性能を叩き出す、ディープラーニングの学習処理に適した新しいGPU。複数GPU間で高速に通信する独自技術のNVLINKも備え、従来のTesla M40と比較して演算性能(16ビット浮動小数点演算)とメモリバンド幅がそれぞれ3倍、GPU間の通信速度は5倍に向上した。

Tesla P100
P100とDGX-1を紹介するNVIDIA マーケティング本部 部長の林憲一氏
P100は倍精度浮動小数点演算で5.3TFlopsを実現する
最新アーキテクチャーPascalを採用
従来のTesla M40と比べ処理性能は3倍以上に高められた

 PCIe接続のGPUアクセラレーター版も用意され、こちらは倍精度で4.7TFlopsと若干性能は抑えられている。同じタイミングで発表されたコンシューマー向けグラフィックアクセラレータ「NVIDIA TITAN X」のサーバー向けバージョンがこのP100ということになる(参考までに、第1世代の地球シミュレータは倍精度で36TFlops程度だった)。

PCIe接続のGPUアクセラレーター版P100
GPUアクセラレーターはやや性能が劣る

 さらに、同社が「世界初のディープラーニング用スーパーコンピューター」と銘打つ「NVIDIA DGX-1」についても説明があった。DGX-1は、GPUとしてNVLINKで接続された8基のP100を搭載し、20コアのIntel Xeonプロセッサー2基と、512GBのDDR4メモリを搭載するサーバーシステム。高速なノード間通信を実現する100GbpsのInfiniBandも4ポート用意し、複数のDGX-1を接続して並列処理を行うことも可能となっている。

NVIDIA DGX-1
高い冷却性能を持つ
1.92TBのSSDを4セット搭載可能
1600Wの電源を4基搭載
16GBメモリのP100を8基、NVLINKで接続している
4ポートの100Gbps InfiniBandで、高速なノード間通信に対応
20コアのIntel Xeonプロセッサーに、512GBのDDR4メモリを組み合わせる
P100とcuDNN5の組み合わせでは、従来のシステムを寄せ付けない圧倒的なパフォーマンスを実現

 OSにはGPU処理に最適化されたLinuxを搭載し、cuDNNやNCCLといったディープラーニング用のライブラリに加え、NVIDIA DIGITSなどのアプリケーションも内蔵している。ディープラーニングの学習処理を高速に実行できるだけでなく、同社提供のクラウドサービスを組み合わせて統合プラットフォームとして活用することにより、複数ノードのDGX-1のマネジメントやジョブのスケジューリング、システム監視、ソフトウェアアップデートなどの機能を利用でき、管理・運用効率を大幅に高めることができるとしている。

機器のマネジメントにかかわる部分はクラウドサービス側で担当し、ディープラーニングの処理を行なうためのデータはユーザー側のDGX-1などで保持する仕組み
NVIDIA製GPUに最適化されたディープラーニングフレームワーク「NVCaffe」を用いて作成した複数の学習処理をスケジューリングして実行可能
リモートのDGX-1を使った学習処理のデモンストレーションも行なわれた
DGX-1は日本GPUコンピューティングパートナーシップ、日立、HPCシステムズが販売代理店となる

チップメーカーからプラットフォーマーへ

NVIDIA ディープラーニング部の村上真奈氏

 このようなGPUによるディープラーニングソリューションを利用して、自動運転車において最も必要とされる画像認識・解析処理を行なう最新の手法についても解説があった。

 同社ディープラーニング部の村上氏は、ここ1年間の人工知能コンピューティング、とりわけディープラーニングの進化について振り返った。画像処理において人間を超える認識率を達成しただけでなく、音声・言語・感情の認識にもディープラーニングが活躍し、がん細胞の検出や創薬といった医療分野、顔検出やビデオ監視などのセキュリティ分野にもディープラーニングが浸透し、さらには囲碁の世界チャンピオンに勝利するなど、わずかな期間でめざましい成果を挙げている。

ここ10年のNVIDIAの歩み
ここ1年のディープラーニング界隈の大きな話題
ディープラーニングはさまざまな分野においてめざましい成果を遂げている

 ここまでディープラーニングが広がった要因として、同氏はディープニューラルネットワーク(DNN)の構造の進歩、ビッグデータの広がり、GPUの高性能化という3つのポイントを挙げる。なかでも同社は、今回のP100のように、ディープラーニングにおける畳み込み処理などに高いパフォーマンスを発揮するGPUを長年開発しており、「GPUの高性能化」の分野で大きく貢献しているとする。

 しかし、近年はGPUそのものに加えて、ディープニューラルネットワークの計算処理を行なうためのライブラリcuDNNや、グラフ解析用ライブラリのnvGraphを開発するとともに、GPUインファレンス(推論)エンジンによって高効率な物体検出をサポートするなど、自動運転車で不可欠な画像処理プラットフォームを提供していることから、チップメーカーだけでなくプラットフォーマーとしても存在感を高めている。

ディープニューラルネットワークの計算処理を行なうためのcuDNNは、最新版が5.1RC
バージョンアップごとにパフォーマンスを向上させている
グラフ解析用ライブラリのnvGraphでは、探索処理において力を発揮する
トレーニング済みのニューラルネットワークに対して、GPUインファレンスエンジンが推論で処理を最適化し、処理効率を向上させる
推論エンジンを適用する前の処理内容
推論エンジンを適用した場合の処理内容
推論エンジンの有無で2~4倍パフォーマンスが向上している

 特に自動車分野にはすでに10年に渡りコミットしているとし、同社の車載ユニットを搭載する車両は80モデル、ユニットの出荷台数は1000万を超えるとのこと。同社技術顧問の馬路氏は、第三者が取りまとめた自動運転車にかかわる多数のプレーヤーのなかで、NVIDIAは「プロセッシング」と「アルゴリズム」分野の有力企業として挙げられただけでなく、世界の自動車メーカーと同じ「自動運転車」に分類されたことも報告した。

NVIDIA 技術顧問の馬路徹氏
NVIDIAは「プロセッシング」と「アルゴリズム」の分野に加えて「自動運転車」にも分類された

 今や自動運転車は、同社が長年に渡って取り組んでいるゲームと、VR、ディープラーニングに並ぶ事業の一角に位置付けられる。その自動運転車の分野で同社にとって重要なキーフィーチャーは、ADASおよび自動運転車の開発に用いるSDK「NVIDIA DriveWorks」と、それを実現するための車載システム「DRIVE CX」および「DRIVE PX」だ。

 DRIVE CXは「コクピットコンピューター」とも称され、ナビゲーション、ドライバーの音声指示を認識する機能、運転支援のための車載カメラの映像処理、情報・エンタメ機能などを実現するもの。一方のDRIVE PXは「自動運転コンピューター」として、ディープラーニングによる学習結果を元に障害物、歩行者などを検出し、各種センサーから得られる周囲の状況も勘案して自律走行に必要な処理を提供するもの。

 これら「モンスターECU」とも呼べる2つのシステムをクルマに搭載し、連携させることで、走行路、歩道、歩行者、交通標識を判別し、視界内のクルマの車種なども見分けながら車両を自動コントロールすることが可能になる。

「モンスターECU」と同社が呼ぶDRIVE CXとDRIVE PX
車両、歩行者、標識の検出、視界のセグメンテーション、雨天や暗闇での車両検出などをすでに実現している

DRIVE PX2による無人自動運転レースは2017年スタートか

 同社は2016年初頭に次世代の「DRIVE PX2」を発表している。P100と同じPascalアーキテクチャを採用した次世代の64ビットTegraプロセッサーを2個搭載し、倍精度浮動小数点演算で8TFlopsを達成する最新の自動運転用モジュールだ。DRIVE PXと比較した場合の処理能力は10倍、ディープラーニングを前提とした処理能力を示す「DL TOPS」においては、Maxwellアーキテクチャ採用のデスクトップ向けGPU(旧)TITAN Xの4倍以上のパフォーマンスを発揮するとしている。

新しいDRIVE PX2

 DRIVE PX2のソフトウェア構成としては、ハイパーバイザ上にOSとしてLinuxが稼働し、Open GLやCUDAなどの画像処理・計算処理用のプラットフォームが載っている。それらOpen GLやCUDAを用いてディープラーニング用のフレームワークやcuDNNが動作し、最上段にNVIDIA DriveWorksと、その上で動作するアプリケーションレイヤーが連携する。

豊富で高速な入出力を備え、整備されたソフトウェアプラットフォーム上で開発に集中できる

 ここでは、DRIVE PX2というハードウェアだけでなく、NVIDIA DriveWorksも重要な役割を担う。多数の車載センサーから得られた情報の集約(センサーフュージョン)、障害物等の検出、周囲の把握、高解像度マップの処理を一手に引き受け、自動運転に必要な処理を高速に行なうためのSDKとなっている。

NVIDIA DriveWorksの役割

 馬路氏が紹介したデモ映像では、複数の広視野角車載カメラからの映像を元に、周囲の視界を3次元でほぼリアルタイムに再現し、視界に入っている車両の大半をしっかり車両として認識している様子を見ることができた。また、トラフィックの流れを勘案したうえで適切な走行パスの候補を検討し、必要に応じて適切なレーンに移動する、自動運転にとって必要不可欠な処理性能を備えていることも示した。

複数のカメラ映像から周囲の状況を3次元化
小さく見える車両も判別
最適な走行パスを検討しながら自動走行する

 もちろん、DRIVE PX2自体も具体的な実用化に向けて進んでおり、DRIVE PX2は2016/2017年シーズンの電動カーレース「フォーミュラE」と併催される「ROBORACE」で、参戦する10チーム20台に搭載されることが決まっている。同一の車両で行なわれる無人の自動運転レースカーによる競技で、純粋にDRIVE PX2に組み込むプログラムとアルゴリズムの優秀さがレースの勝敗を分けることになる。

「フォーミュラE」と併催される「ROBORACE」でDRIVE PX2が公式採用

 なお、フォーミュラEの開幕は10月9日とアナウンスされているが、現在明らかにされている情報から推測すると、ROBRACEは2017年1月28日の第3戦メキシコからとなる可能性が高い。サーキットでのレースということで、本来想定している公道での自動運転とは環境は異なるが、もう間もなくDRIVE PX2による自動運転車の実力と可能性の一端を目にすることができるようになるだろう。

10月26日にヒルトン東京お台場で「GTC JAPAN 2016」が開催予定。ディープラーニングや自動運転車に関する最新情報に触れることができるので、要チェックだ
今回のNVIDIA Deep Learning Day 2016 Summerではブース展示もあった。写真はトーメンエレクトロニクスによる人物認識のデモ
デルのディープラーニング向けサーバー「PowerEdge C4130」と「PowerEdge R730」
日本GPUコンピューティングパートナーシップが出展していたディープラーニング用デスクトップマシン「Deep Learning BOX」
このDeep Learning BOXを用い、カメラで認識した指の数によって画面上の女の子がアクションするサンプルデモを披露していた