ニュース

「GPGPU」の製造業への活用を示す「NVIDIA Manufacturing Day 2014」リポート

GPUの利用で低コストな数値解析が可能に

2014年1月17日開催

会場に展示されていたエルザ ジャパンのTesla K40搭載カード

 NVIDIAは1月17日、開発者向けフォーラム「NVIDIA Manufacturing Day 2014」を開催した。基調講演については既報(http://car.watch.impress.co.jp/docs/news/20140120_631436.html)のとおりだが、ここではそのほかのセッションについてリポートする。

 本フォーラムのキーとなっているのは、「GPGPU」の製造業分野における活用だ。GPGPUとはPCなどでも使われているGraphics Processing Unit(GPU)にCPUの演算の補助をさせることで、CPUを大量に搭載したシステムよりも効率のよいシステムを構築しようというもの。CPUだけのシステムとGPU+CPUのシステムではそれぞれ得意分野があり、どちらかだけに優位性があるわけではないが、ケースバイケースで使い分けることでより効率よく演算できるようになる。製造業分野では特に注目されている用途だ。

エヌビディア マーケティング本部 部長 林憲一氏

 最初に「エヌビディア最新情報と製造業分野での取り組み」と題して、エヌビディア マーケティング本部 部長の林 憲一氏がセッションを開始した。

 まずは2013年11月に開催されたイベント「SUPERCOMPUTING 2013」のトピックスから紹介。同イベントではNVIDIAのスーパーコンピューター向け最新製品である「Tesla K40 GPU」や並列計算アーキテクチャの最新版である「CUDA 6」の発表が行われた。また、IBMと提携し、TeslaとPOWER 8を使った次世代スパコンが2014年に登場することも発表されている。

 また、ユーロ圏最速のスーパーコンピュータ「Piz Daint」にNVIDIAのGPUが使われている事例も紹介。6.27P FLOPS/80%以上のLinpak効率をたたき出すスパコンで、欧州各国の気象予報システムに使われている。また、1Wあたりの性能が3110M FLOPSとなっており、同クラスの演算能力を持つスパコンの中では最も消費電力が低いという。

 スーパーコンピューターの低消費電力性能を競う「The Green500 List」では1位~10位までをNVIDIA製GPUを搭載したスパコンが独占。GPGPUを搭載したスパコンではCPUだけのシステムと比べて消費電力を抑えられる傾向がある。

「SUPERCOMPUTING 2013」でのトピックス
ユーロ最速のスーパーコンピュータ「Piz Daint」
NVIDIAが1位~10位を独占した「The Green500 List」
東京工業大学 学術情報センター先端技術部門 遠藤敏夫准教授

 ここで「The Green500 List」で1位と6位を獲得したスーパーコンピューター「TSUBAME」を開発した東京工業大学 学術情報センター先端技術部門の遠藤敏夫准教授が登場。このシステムについて解説した。遠藤准教授によると、現在世界のスパコンはエクサ(ペタの上の単位。百京)スケールのパフォーマンスに向けて進化を続けているが、その場合の電力性能は1Wあたり50G FLOPSの性能が必要だという。このためには今後もさまざまな技術が必要になる。

 1位を獲得した「TSUBAME-KFC」では、冷却系に液浸冷却技術を採用。これは4GPUを搭載したサーバーを丸ごと冷却用オイルに浸け、そこで発生した熱を水に伝達し、屋外の冷却塔で外気に放熱するというシステム。サーバーを丸ごとオイルに浸けるため、システムにあらかじめ装着されているファンや熱伝導グリスなど不純物となり得るものは全て除去している。

 一般的な冷却システムでは冷却用に冷却器を使い、人工的に冷たい水を生成して冷却するため消費電力が高くなる。TSUBAME-KFCでは全ての段階で自然放熱をしているので消費電力がより抑えられるという。これによって冷却用電力は半減、さらにチップ温度が低下したことでリーク電流が削減され、計算機自体の電力消費も8%抑えられた。「The Green500 List」では冷却系の消費電力を含めないためTSUBAME-KFCのシステムは不利なのだが、それでも4.503G FLOPS/Wの記録で1位となった。冷却込みでは3.52G FLOPS/Wという。

「TSUBAME-KFC」
液浸冷却技術の概要

 引き続きエヌビディアの林氏が登壇し、今年1月に開催されたばかりの「2014 International CES」で発表されたトピックスについて解説をした。CESでは主に新型モバイルプロセッサ「Tegra K1」とその車載バージョン「Tegra K1 VCM」などの発表が行われたが、これらについてはCESの現地リポートでもお伝えしたとおりだ。

エヌビディア 製造業担当ゼネラルマネージャー アンドリュー・クレッシ氏

 続いてエヌビディア 製造業担当ゼネラルマネージャー アンドリュー・クレッシ氏が登壇し、「エヌビディアの製造業分野での取り組み」に関するセッションを行った。

 NVIDIAの製品は製造業分野で「デザイン」「エンジニアリング」「セールス」の分野で使われている。Teslaを使った実例として、流体解析ソフト「ANSYS Fluent 15.0」を紹介。ここでは1400万セルのトラックボディーの解析にGPGPUを使って効率化をした実例を示した。クレッシ氏によると、現在日本は車両のシミュレーションに最も多くGPGPUを使っている国とのこと。

 また、こうしたグラフィックス技術を使って店頭での売上げに貢献するという事例も紹介。クルマのボディーカラーやエクステリアパーツなどを取り付けた様子を実際に顧客に見せることで説得力を持たせ、購入意欲を向上させるというものだ。ここでは実際にシボレーで使われているという事例も紹介された。

流体解析ソフト「ANSYS Fluent 15.0」での解析結果
顧客に好きなボディーカラーやエクステリアパーツなどを選んでもらい、装着した様子を見せることができる

 次に、NVIDIAの仮想化技術である「NVIDIA GRID」を紹介。これは高性能なPCがなくてもワークステーションを仮想化し、リモートで使うことでタブレットPCなどでも高機能なグラフィックスソフトが使用できるというもの。会議などでも簡単に実際の車両データを使ったプレゼンが可能になるほか、データはワークステーション上にあるのでデータそのものを持ち歩く必要がなく、セキュリティリスクも低くなるメリットがある。

 この後、自工会によるGPGPUに関するセッションが行われ、午前中のセッションは終了した。

エヌビディア エンタープライズソリューションプロダクト事業部 澤井理紀氏

 午後最初のセッションはエヌビディア エンタープライズソリューションプロダクト事業部の澤井理紀氏が「エヌビディア ビジュアリゼーションソリューション」と題してセッションを開始した。

 まずは製造業のワークフローにおけるグラフィック技術の活用例を紹介。現在のトレンドはデータの大規模化、表示装置の高解像度化、レンダリングへの要求の高まり、柔軟なワークフローへの対応の4点という。

 1つめのデータの大規模化に向けた対応として、NVIDIAのワークステーション向け製品「Quadro」シリーズの最新ラインナップを紹介。特にハイエンドモデルである「Quadro K6000」では12GBのメモリを搭載することで、従来ではメモリ不足で計算しきれなかったレンダリングにも対応できるようになった。

Quadroシリーズのラインナップ
浮動小数点演算が劇的に向上
メモリが増加したことでこれまでメモリ不足で計算できなかったケースにも対応

 表示装置の高解像度化については、ハイビジョンを超える解像度への対応について解説。4K解像度の出力はもちろん、「Quadro K6000」を4枚使用することで8K解像度(7680~8192×4320)にも対応。1枚あたり4画面を出力することで8K解像度の表示を実現。このままではそれぞれ別のデスクトップ画面として扱われるが、同社の「Mosaic」技術を使って8Kの解像度を1つのデスクトップとして表示するデモンストレーションも行われた。

4枚のカードを使用することで8K出力に対応
1つのデスクトップに統合したところ

 レンダリング要求への高まりとしては、光りの振る舞いを物理的に演算し、画像を作り出す「物理ベースレンダリング」を紹介。光りの挙動をシミュレートし、モデリングされた物体にリアルな光りを当てることでより現実感のある画像を作り出す。物理ベースレンダリングを行うことで、光源を簡単に移動させることが可能で、物理的にライトを置いて自由に移動させる感覚でライティングを変更できる。従来は光源の移動は非常に手間が掛かるものだったという。

 非常にリアルな映像を生成可能なため、モックアップを作る必要がないほどだが、膨大な計算能力が必要になる。そこでGPGPUを活用することでCPUだけのシステムよりも高速でデータ処理を可能にし、リアルタイムでのレンダリングも可能になってきている。例ではCPU単体では2時間24分かかっていた計算がQuadro K6000を加えたシステムでは12分に短縮されたという。さらに高速化したい場合はQuadroやTeslaを追加すればパフォーマンスがアップできる。

「物理ベースレンダリング」の実用例。より実車に近い映像を作り出せる
エヌビディア エンタープライズソリューションプロダクト事業部 事業部長 杉本博史氏

 次は「エヌビディア HPCソリューション」と題してエヌビディア エンタープライズソリューションプロダクト事業部 事業部長の杉本博史氏がプレゼンを行った。

 HPC(High Performance Computing)の分野では、2013年4月のIDCによる調査でGPUを使ったアクセラレータを導入したいというユーザーは20カ月の間に29%から65%に増加し、注目を集めているという。

 CAE(Computer Aided Engineering)にGPUを活用する動機としては、以前はハードウェアの価格は人件費やソフトウェアに比べて非常に高価であったが、現在では逆転してソフトウェアのライセンスコストが非常に高くなった。このため、ハードウェアの選択はコストの低減と開発期間の短期化に重要な意味を持つという。

 そうしたなか、独立系のソフトウェアメーカーがGPUに対応するケースも増加しており、電磁界解析、陰解法の構造解析に続いて、流体解析の分野でもGPUがサポートされてきたという。また、大手CAEユーザーである自動車産業やエレクトロニクス、航空業界などでもGPUの採用事例が増加してきているとした。

 また、ソフトウェアのライセンスについては、現時点ではGPUに有利なものが多い。例えば従来のライセンス計算ではコア数に応じてライセンス料が課せられるが、GPUで同じように計算するとK40では2880コアに課金することになる。これでは現実的な金額にならないので、GPUに対してはコア毎のライセンス計算をしないケースが多いそうだ。一例でANSYS MechanicalでANSYS HPC Packを購入する場合、1コアとGPU1個が同じ金額。6コアに2GPUと4コアに4GPUは同額になるという。

CAEのコストトレンド
GPUのサポート状況
GPUのライセンスについて

 構造解析におけるGPUコンピューティングの活用例についても例が示された。ANSYS Fluentを使った乱流などの流体のセダンタイプの車両における計算では、計算量が少ない弱連成のものより、計算量が多い強連成の場合にGPUの優位性が発揮され、GPUを追加することで強連成のほうが1.9倍の速さで計算できたという。弱連成による流体のシミュレーションでは6000反復でも収束しないケースもあるが、強連成では500反復以内で収束する場合があり、こうした事例ではGPUを有効に活用できると示された。

 トラックの車両モデルを使った空力計算の例では、144CPUのシステムよりも144CPUコア+48GPUのシステムのほうが2倍の速度で演算できていた。同じモデルを使った乱流の演算では、64CPUコアのシステムと32CPUコア+8GPUのシステムが互角のパフォーマンスであることから、64コアのシステムに8GPUを追加すれば32コアを別の解析にライセンス利用できるようになるなど、ライセンスとハードのコストバランスを考えてシステムを有効的に運用できるという。

ANSYS Fluentを使ったセダンの流体解析
強連成では500反復以内で収束する

 電磁界解析でGPUを活用した例では、電磁界解析ソフトウェア「JMAG」にTesla K40を使用していた。埋め込み型永久磁石モータ(IPMモータ)の静磁界解析を行ったもので、ここでもGPUの優位性は高く、CPU1コアに対して1GPUは30.43倍のパフォーマンスを持つ。8CPUコアと1GPUの比較ではGPUが4~5倍高速だった。GPUを2個にするとさらに高速化し、スケーラビリティは1.89倍になる。同じくリニアモータの静磁界解析でもCPU1コアに対して1GPUは19.58倍のパフォーマンス、8コアに対しては1GPUで4~5倍高速であった。2GPU時のスケーラビリティは1.79倍。

埋め込み型永久磁石モータの静磁界解析
リニアモータの静磁界解析

 GPUコンピューティングではそのほかの活用例もいくつか示された。例えば不鮮明な画像をリアルタイムで映像品質を改善したり、監視カメラでの画像解析などの用途でもGPUを使用すれば高速化できるという。また、大規模災害が発生した場合の画像解析でも、災害現場の膨大な衛星画像を効率よく解析してすばやく状況を判断し、迅速な対応が可能になるとした。

カメラの画像補正や解析など画像処理全般に有効

 製造ラインなどでの活用も紹介され、カメラによる外観検査装置では、CPUだけでは大量画像データの処理能力が不足する。専用のFPGAを開発すれば能力は高くなるが、開発工数や開発期間の長さがネックになる。しかし、GPUを使用したシステムならPCベースの簡易的なシステムで同等の処理が可能になる。既存システムをGPUシステムに移行することでコストや開発工数の大幅な削減が可能になるという。

エヌビディア エンタープライズソリューションプロダクト事業部 森野慎也氏

「CUDA6、OPENACC、GPUDIRECT最新情報」では、エヌビディアエンタープライズソリューションプロダクト事業部の森野慎也氏がCUDA6についてのセッションを行った。

 CUDA6は新たに「ユニファイドメモリ」に対応することが大きな特徴。従来はCPUとGPUのメモリは別々に扱うしかなかったが、ユニファイドメモリではCPUのメモリとGPUのメモリを意識せずに使うことが可能になる。メモリマネジメントが簡易化されプログラミングの労力を軽減できる。今後はプリフェッチの実装やOSサポートの追加など最適化を行うほか、次世代「Maxwell」ベースの製品ではメモリコヒーレンシの確保をハードウェアレベルでアクセラレートする機能も実装するという。

ユニファイドメモリの概念
メモリマネジメントを簡易化できる

 続いてエヌビディア シニア デベロッパー テクノロジー エンジニアの成瀬彰氏が「JUST THE FACTS」と称して最後のセッションを行った。ここではアクセラレータが注目される理由などを現在のアクセラレータの選択肢としてNVIDIA GPUと「Intel Xeon Phi」を例に挙げて解説した。

 前述したスパコンの「Top 500」では、1位を獲得したのは「Intel Xeon Phi」をアクセラレータとして使ったシステムで、NVIDIAのGPUを使ったシステムは2位となっている。しかし、消費電力あたりのランクを競う「Green 500」では、1位~10位までのランキングをNVIDIAが独占した。Xeon Phiは37位だ。

 また、LINPACKのようなベンチマークテストではなく、実アプリではどうか。GPUに最適化されたアプリケーションはほとんどの場合でGPUに有利な結果になる。ただし、リコンパイルでは「Intel Xeon Phi」に比べて不利な面があり、CPUより遅くなってしまうケースがほとんどだという。こうした結果から、どちらにもそれぞれの優位性があり、必要に応じてシステムを選んで利用することが重要だと分かる。

「K40」と「Intel Xeon Phi」の比較
「Top 500」で1位を獲得したのは「Intel Xeon Phi」のシステム
実アプリではGPUが有利

 最後に杉本氏はまとめとして「製造業の方々からすると選択肢は多い方がいい。いろいろな製品のなかから必要なものを選択してほしい」「CUDAと出したことでGPUがプログラマブルになり、対応GPUは4億以上が出荷されている。NVIDIAはエコシステムを構築できているのが強みで、コンシューマ用プロダクトで築いた技術を応用してきた。ゲームのグラフィックスのテクノロジから始まって、CADやスパコン分野にも広がった。製品群が増えることで選択肢が広がり、必要なところに必要なプロセッサを投入できるようになる。今後も継続して使っていただけるのがNVIDIA製品の強みとなる」とコメント。

 また、「これからの時代はアプリケーションを高速化するためにプログラミングの並列化が不可欠。アプリケーションベンダーが使うのはもちろんだが、アメリカでは大学の授業でCUDAが頻繁に使われている。日本では少ない。CUDAは並列処理を学生に教える教材としてとても優れている」とし、将来の人材育成にも有効であることをアピールした。

 最後に同氏は「GPUはこの5年でとても進化したが、今後2~3年でまたさらに飛躍すると思う。ぜひ新しいテクノロジを試していただきたい」と講演を締めくくった。

(清宮信志)