ニュース
トヨタと協業したNVIDIAが、名古屋で自動運転やAIのセミナーを実施
「NVIDIA DEEP LEARNING INSTITUTE DAY 2017 IN NAGOYA」
2017年5月24日 16:17
- 2017年5月22日 実施
NVIDIAは5月22日、ナディアパーク・デザインホール(愛知県名古屋市)で「NVIDIA DEEP LEARNING INSTITUTE DAY 2017 IN NAGOYA」を開催した。
このイベントは、5月8日から4日間、米カリフォルニア州で行なわれていた開発者向けイベント「GPU Technology Conference 2017」(以下、GTC 2017)で発表された内容のうち、ポイントとなる部分を紹介するもので、AIや自動運転車に関して解説するセッションが用意された。
・AI、GPUコンピューティングにかかわるNVIDIAの取り組み
・新GPU「Tesla V100」の概要
・自動運転車、自動運転に関わる技術の出展、セミナー
また、産業技術総合研究所(産総研)および東京工業大学でスーパーコンピューターTSUBAMEの開発の中心人物である松岡教授による特別講演も行なわれた。
AI、GPUコンピューティングにかかわるNVIDIAの取り組み
NVIDIA エンタープライズマーケティング本部長の林氏は、GTC 2017の基調講演で語られた内容を中心に紹介した。
最初に同氏は、GPU処理のアドバンテージについて解説した。CPUの進化は、半導体の集積率が18カ月で2倍になるという「ムーアの法則」と、トランジスタサイズを半分にすることで2倍のスイッチ速度を4分の1の消費電力で実現できるようになるとする「デナードスケーリング」によって支えられてきたが、近年はこの法則が崩れ、年ごとのCPU進化は1.1倍程度になってしまったと語る。
しかし、このCPUの進化を補うのがGPUであると語る。チップ単体だけでなくI/O性能やその上で動作するソフトウェアも含めた総合的な性能向上により、年率1.5倍という進化を続けているとした。
こうした進化に合わせて、GPUコンピューティングの開発者はここ最近の5年で11倍の50万人以上、GTCへの参加者も3倍の7000人と大幅に増加。ビッグデータのトレンドや、洗練されたアルゴリズムの開発などと合わせ、特にAIの分野でGPUの活用が進んだことから「現代にAIのビッグバンがもたらされた」とした。AIに関わる様々な分野の学会でも、2年で参加者が倍になるというこれまでにない活性化が進んでいるという。
NVIDIAは半導体メーカーであり、GPUを搭載するサーバー製品の製造、GPUプログラミングのためのフレームワーク(CUDAなど)の提供などを行なっているが、それ以外にも産学協同研究の「NVAIL(NVIDIA Artificial Intelligence Lab)」や、ディープラーニング開発にかかわる1300社ものスタートアップを支援する「NVIDIA Inception Program」を実施していることを説明。エンタープライズソリューション開発においては、SAPとAI開発についてのパートナーシップを締結するなど、研究・投資活動も積極的に推進している。
AI開発において注目されているディープラーニングのニューラルネットワークモデルは、複雑化が進む一方だ。2015年にはMicrosoftのResNetが700京回の計算量と6000万のパラメータ数からなるニューラルネットワークを構築し、2016年にはBaidu Deep Speech 2が計算量2000京回、パラメーター数3億に到達。2017年にはGoogle NMTが1.05垓回、87億パラメーターとなっている。NVIDIAは「この進化に対応する製品を作っていかなければならない」として、それを実現するVolta世代の「Tesla V100」を紹介した。
新GPU「Tesla V100」の概要。Tesla V100搭載「DGX-1」への無償アップグレードも実施
GTC 2017で発表されたTesla V100は、前世代のPascalに続く新たなVolta世代のGPU。12nmプロセスにより210億トランジスタを集積し、ダイサイズは815mm2という「(現在の技術で)作りうる世界最大の半導体」。5120個のCUDAコアに加え、機械学習(ディープラーニング)で多用される行列の積和演算を効率的に行なうための640個の特殊なTensorコアを内包する。
演算能力はFP64で7.5TFLOPS、FP32で15TFLOPSだが、このTensorコアを含めたトータルの演算能力は120TFLOPS(Tensor FLOPS)に達する。これにより、Pascal世代と比較して汎用演算性能で1.5倍、Tensor学習演算で12倍、Tensor推論演算で6倍の性能を発揮するという。
メモリは積層DRAMのHBM2で、Pascal世代とテクノロジーは同じだが、バンド幅が1.2倍の900GB/sになった。さらに、Pascal世代のP100では実際には76%の効率でしかメモリアクセスできなかったところ、Volta世代のV100では95%の効率でアクセス可能になり、トータルでは1.5倍ものパフォーマンスアップを果たしている。
GPU間通信のNVLinkも進化した。リンク本数はPascal世代の4本から6本へ、データ伝送速度は1本当たり片方向で20GB/sから25GB/sとなり、双方向トータルで300GB/sを達成する。
L1キャッシュはPascal世代より7.7倍大容量化。低レイテンシだが容量の小さいシェアードメモリと、比較的容量は大きいがデータの引き出しにやや時間のかかるL1キャッシュの区別はなくなり、容量を増加したうえでL1キャッシュとして1つの記憶域に統合された。
同社はこのTesla V100を8基搭載する“ディープラーニングマシン”「DGX-1」を、2017年第3四半期にリリースする。960 Tensor FLOPSを叩き出すこのマシンは、TITAN Xで8日かかっていた処理がわずか8時間に短縮されるとのこと。現在オーダーできるのはPascal世代のDGX-1となるが、今すぐに購入して使い始めても、Volta世代のDGX-1がリリースされた後に無償でアップグレードされることも明らかにした。
なお、そこまでの高性能は必要ないというユーザーに対しては、Tesla V100を4基搭載する「DGX ステーション」を用意する。DGX-1と比較して半分の480 Tensor FLOPSの性能となるが、水冷システムを採用していることで、「近づいても気付かないほど静か」だという。
こうしたサーバー側だけでなく、エッジ側の端末(モバイル端末、車載端末など)に対しても、性能を向上させたシステムを提供する。特に車載向けには、新プロセッサXavierを搭載するDRIVE PXを用意。512コアのVolta世代GPUで、30Wの低消費電力で30 TOPSの処理性能を発揮し、レベル4、レベル5の(完全)自動運転までサポートする。このXavier搭載のDRIVE PXは、トヨタ自動車が採用を予定していることも改めて報告があった。
自動運転車、自動運転に関わる技術の出展、セミナーを紹介。「AIポリスカー」も登場へ
NVIDIA シニアソリューションアーキテクトの室河氏は、「GTC 2017 オートモーティブ最新情報」と題して、GTC 2017で展示、発表のあった自動運転車両と、自動運転に関わる技術をまとめて紹介した。
GTC 2017の会場で展示されていた乗用車型の自動運転(試験)車両は合わせて4台。CES 2017で自動運転デモを行なったAudi Q7に、オンライン教育のUdacityが所有する自動運転用コースで走らせているリンカーン MKZ、自動運転試験車両のセットアップなどを手がける米国企業AutonomouStuffによる新型のリンカーン MKZ、そしてNVIDIA自身が展示していたFord FusionをベースにしたBB8となる。
自動運転を実現するには、カメラやレーダーなどを用いた高度なセンシングが重要だが、詳細な地形情報を網羅した、いわゆる「HDマップ」の整備も欠かせない。この分野で存在感を示し始めているのは、日本の地図情報会社ゼンリンだ。各種センサーを搭載した試験車両を走行させ、1日当たり1TBもの地形情報を収集しており、すでに120万kmの道路、20万以上の信号、1000万近くの標識に関するデータも保有しているとのこと。
国外の企業では、自律走行する自動運転車を用いて3Dマップ作成を行なう米Civil Mapsがある。また、ADASソフトウェアの開発も手がけるフィンランドのElektrobit、3D CGで構築した仮想環境上でクルマを走らせ、機械学習に必要な教師データを収集することにより自動運転技術を開発する米Argo AIなども紹介した。
TSUBAME 3.0の開発を進める産総研の松岡教授による特別講演
イベントの最後のセッションでは、産総研と東京工業大学でスーパーコンピューターやHPC(High-Performance Computing)を研究する松岡教授による、新たなスパコンへの取り組みについて講演があった。
同氏は科学技術研究に用いられるスパコン「TSUBAME」の開発に中心的に関わってきた研究者の1人。初代のTSUBAME1.0は2006年に、大幅に性能を向上させたTSUBAME2.0は2010年11月に稼働を開始し、その後2013年にはTSUBAME2.5へと更新。現在はその後継となる「TSUBAME3.0」の稼働に向けたプロジェクトが進行中という。
TSUBAME2.0は当時「世界最小のペタフロップス・省電力スパコン」とされ、アップデートしたTSUBAME2.5の処理性能は単精度で17.1 PFLOPS、倍精度で5.76 PFLOPSだった。これとは別に、TSUBAME3.0とそれ以降に向けたテストベッドシステムとして、特殊な油冷システムを備えた「TSUBAME-KFC/DL」を2013年から稼働。倍精度で210 TFLOPS、単精度で630 TFLPSという性能で、省エネなスパコンとして当時世界1位を獲得した。
こうした成果をベースにTSUBAME3.0の開発を進めている同氏だが、昨今ニーズが高まってきている「ビッグデータ、AIの研究」、つまりディープラーニングを念頭に置くに際しては、従来型の「FLOPS偏重」のスパコンには「多くが欠けている」と同氏は指摘する。
たとえば、TSUBAME-KFC/DLにおいて機械学習を行なった場合、実際にGPU処理にかけた時間は全体のわずか3.9%であり、ほかはほとんどが通信やメモリ操作に割かれていたという。そのため、ビッグデータとAIに関わる処理では、メモリおよびネットワークの容量(BYTES)や速度(BYTES/s)が重要であり、FLOPSではなく、「ビッグデータ・AI時代のBYTES中心スパコン」を目指すとした。
そのTSUBAME3.0で採用されるのが、NVIDIAのTesla P100、2160基。各GPUノード間はNVLinkにより片方向20Gbpsで接続されるが、その他CPU、DRAM、ストレージなど、あらゆるデータ通信は、最低でも12.5Gbpsで接続されるという。現在建設が進む建屋には、TSUBAME3.0がわずか20ラックのシステムで構成され、占有スペースは1部屋150平方メートルのうち3分の2程度とのこと。
完成予定は2017年8月頃、処理性能は倍精度12.1 PFLOPSの予定で、ピークランクは国内2位、AI性能は47.2 PFLOPSで1位になる予定。また、冷却効率を表す年間平均PUE値は1.033と、限りなく1.0に近い「世界トップクラスの冷却効率」も達成する。これは実質的にほとんど計算にしか電力を消費しておらず、冷却にはまるで電力を必要としていないことになる。
さらに翌2018年3月には処理性能を高めた「ABCI」をリリースする計画。ABCIは現在のところ使用するハードウェアが未定で、PUEも約1.1へ若干低下するとみられるが、AI性能で130~200 PFLOPSに到達するという。その先2019年には、「ExaAI」と呼ぶ、AI性能において1 Exa FLOPSまでを目標とした新たなスパコンの計画があることも示した。