ニュース
テスラ、自動運転AI用にNVIDIA A100 GPUによるスーパーコンピュータを構築
2021年6月25日 19:34
- 2021年6月22日(現地時間) 発表
米テスラでAI担当シニア ディレクターのアンドレイ カルパシー(Andrej Karpathy)氏は、自動運転や自動運転機能向けのDNN(ディープ ニューラル ネットワーク)をトレーニングするために、NVIDIA A100 TensorコアGPUを計5760基を採用する、テスラのスーパーコンピュータを構築したことを明らかにした。
6月20日にオンライン配信されたCVPR(Computer Vision and Pattern Recognition)の中で公開されたテスラのスーパーコンピュータは、業界最高水準の1.8エクサフロップスの性能を実現するために、8基のNVIDIA A100 TensorコアGPUを搭載するノードを720台、計5760基のGPUを使用。
カルパシー氏は「これは本当に素晴らしいスーパーコンピュータです。フロップスに関して世界でおおよそ5位のスーパーコンピュータと言えるでしょう」とそのパフォーマンスを紹介した。
路上を走行する車両でディープ ニューラル ネットワークのトレーニングを繰り返すテスラのスーパーコンピュータ
このテスラのスーパーコンピュータは、テスラの自動運転に対する垂直統合型アプローチの一部といい、すでに路上を走行している100万台を超える車両を用いて新しい機能を洗練させ、構築し、継続的に改善を行なっているという。
そのテスラの循環型開発は、車両から始まり「シャドウ モード」で動作するDNN(ディープ ニューラル ネットワーク)は、車両走行中に静かに認識し予測を立てるが、実際に車両を制御することはない。予測は記憶され、間違いや誤認はすべてログに記録される。
次に、これらのインスタンスを使用して、テスラのエンジニアが難易度の高い多様なシナリオのトレーニングデータセットを作成し、DNNの精度向上を目指す。
その結果、36フレーム/秒(fps)で記録された10秒間のクリップがおよそ100万点、実に1.5PB(ペタバイト)に上るデータ集ができあがる。これらのシナリオをDNNがデータセンターで実行し、1つのミスもなく動作するまで何度も繰り返す。最後にDNNを車両に送り返し、一連のプロセスを再び開始する。
カルパシー氏は、このような手法による大量のデータを基にDNNをトレーニングするには、「膨大なコンピューティング」が必要だと述べており、このためテスラは、高性能なNVIDIA製A100 GPUを搭載する現世代のスーパーコンピュータの構築と活用に踏み切ったとしている。
テスラのスーパーコンピュータは、包括的なDNNのトレーニングに加えて、自動運転車のエンジニアが開発プロセスにおいて実験や反復作業を行なうために必要な性能を提供するといい、カルパシー氏は同社が展開している現在のDNNの構造では、20人のエンジニアを有するチームが同時に単一のネットワークを扱い、さまざまな機能を分離して並列に開発できると述べている。
テスラのスーパーコンピュータに採用されたNVIDIA A100 GPUは、世界最高性能のデータセンターを実現するためにあらゆる規模のアクセラレーションを提供。NVIDIA Ampereアーキテクチャを採用する A100 GPUは、前世代と比較して最大20倍の性能を提供し、7つのGPUインスタンスに分割することで、需要の変化に動的に対応することができるとしている。
これにより、テスラが扱うDNNはこれまでよりも高速にトレーニング データセットを実行できるので、迅速な反復作業が可能になるとしている。
カルパシー氏は「コンピュータビジョンは、私たちの仕事の根幹であり、Autopilotを可能にします。機能するためには、大規模なニューラルネットワークをトレーニングし、数多くの実験を重ねる必要があります。だからこそ、私たちはコンピューティングに多額の投資を行なってきたのです」と述べている。