ニュース

自工会、自動車業界におけるGPUコンピューティングの現状について発表

「NVIDIA Manufacturing Day 2014」基調講演より

2014年1月17日開催

日本自動車工業会 電子情報委員会 デジタルエンジニアリング部会 スパコン先端技術調査タスク 砂山良彦氏

 日本自動車工業会(自工会)は1月17日、NVIDIA主催の開発者向けフォーラム「NVIDIA Manufacturing Day 2014」の中で、「日本自動車工業会におけるGPUコンピューティング調査の取り組み」と題し、自動車開発におけるGPGPUの有効性について基調講演を行った。

 講演したのは、日本自動車工業会 電子情報委員会 デジタルエンジニアリング部会 スパコン先端技術調査タスクの砂山良彦氏(スズキ)。

 GPGPUとは、PCのグラフィックスカードなどに搭載されているGPUを画像処理以外の目的に利用する技術で、CPUの代わりにGPUが演算することで、演算内容によってはCPUだけで演算するよりも高効率に結果が得られるようになるというもの。講演ではNVIDIAのKeplerアーキテクチャベースの最新GPU「Tesla K40」をCAE(Computer Aided Engineering)に導入し、実データを使った検証結果などが公開された。

なぜGPGPUについて調査を行うのか

 自工会ではなぜGPGPUについて調査を行っているのか。クルマに限らず製品開発の上で開発の手戻りの削減、実験ベースでは捕らえられない複雑な現象や実験では実施しきれない数多くの事象の検証をすることによって飛躍的な性能向上が図ることができ、このためにCAEはもはやなくてはならないものという。

 しかし、複雑な現象の解析に関してはまだまだ改善の余地があると砂山氏は言う。信頼性を向上させるには、さらなる解析モデルの大規模化や複雑化、非線形領域、複合領域、非定常計算など適用範囲の拡大が必要で、さらには解析ジョブ件数そのものの増加など、現状の計算量でもまだまだ計算能力は不足するそうだ。

計算能力の必要性について
解析ジョブの増加

 解析モデルの大規模化について砂山氏はスズキでの例を挙げ、「現状の空力解析では5000万から6000万要素で計算しているが、1年後には1億要素で計算するようになる。エンジンの構造解析も今は500~600万自由度で計算しているが、1年後には1000万自由度になっているはず」と解説。5~6年の間でその計算量は約10倍になるという。

 また解析ジョブ件数については、従来はCAEの専任者だけが解析を行っていたが、最近では設計者が自分で解析を行うケースが増え、燃費などを解析する1次元解析ソフトを例にとると4年間で解析ジョブ件数だけでも4倍、述べ利用者数は7倍に増加したという。

 消費電力も無視できない。CAEサーバーの保守費と消費電力をグラフ化したものでは2008年時の消費電力に対して2013年では10倍に膨れ上っている。また、このグラフにはサーバーの冷却費は含まれておらず、実際にはこの倍の電力が使われているという。

解析モデルの大規模化
CAEサーバーの消費電力

 ちなみにスズキでは2600kWの風洞ファンを使っており、従来は風洞は“金食い虫”と言われていたが、2013年時点の消費電力で比較すると、CAEサーバーは風洞の3倍の電力を使っているそうだ。

 自工会ではこうした背景から、開発現場で使っているCAEでの実行データにおける性能や、ハード、ソフト全体の投資に対する効果などを調査することでGPGPUの有効性を探っている。GPGPUの調査には現在自動車メーカー9社が参加。そのうち6社が2013年時点でGPGPUを採用したCAEを導入している。

GPGPUの調査に参加した自動車メーカー9社
活動体制とポイント
調査対象ソフトウェア
機材のスペック一覧

 今年度の調査ポイントは、NVIDIAの最新GPUであるK40の性能評価と流体・電磁界解析ソフトの性能評価。昨年評価した4つのソフトウェアに加えて、流体解析用ソフト「Fluent」「OpenFOAM」「Converge」、電磁界解析ソフト「JMAG」の4つを追加してテストを行っている。講演ではこの中の一部が公開された。

 まず示されたのは粒子法流体解析ソフト「Particleworks 4.5.0」での解析結果だ。ポイントは「Tesla K40」と「Tesla C2075」の計算時間の比較、GPGPUによるライセンスコスト削減効果、K40のメモリ拡張効果の3点。テストはミッションケース内のオイルの挙動を解析したものだ。

 このケースでは特にGPUの効果が高く、1CPUでの解析結果に比べて、1CPU+1GPU(C2075)の時点で約1/10の時間で解析が可能になった。さらに最新のTesla K40になると、ここからさらに55%高速化している。これはメモリ帯域幅がK40では288GB/sなのに対して、C2075では144GB/sと半分であることからその結果が顕著に表れているという。

 また、ライセンスコストについては、16CPUのライセンスに対してGPGPUのシステムでは同じコストを掛けた場合に約3倍の効果が得られることから、コスト削減にも効果があるとした。メモリ拡張効果については、K40の搭載メモリは最大12GBに拡張可能となったため、従来は粒子数が100万前後までしか解析ができなかったが、K40では粒子数233万でも解析が可能になった。

「Particleworks 4.5.0」の使用機材
「Tesla K40」と「Tesla C2075」の計算時間の比較
GPGPUにおけるコスト比較

 電磁界解析ソフト「JMAG」では、ソフトウェアのバージョンアップによる効果や解析モデル規模による計算時間の差などが示された。ソフトウェアのバージョンアップについては、よりGPGPUへの最適化が進んだことで新しいバージョンの方が良好な結果が得られるのは分かりやすいが、面白いのは解析モデルの規模に応じた解析時間の差だ。

 26万要素で構成されたモータの解析では、1CPUのシステムに比べて1CPU+1GPUのシステムは60%の高速化が図られたが、より複雑な96万要素モデルでは86%の高速化が図られた。より複雑なモデルの方がGPGPUの効果が高く、簡素なモデルでは差が出にくく、場合によって1CPUで解析を行った方が効率がよくなる。これはGPGPUの欠点というよりもケースバイケースで使い分けることで全体を効率化することを考えているそうだ。

「JMAG」テストの使用機材
ソフトウェアバージョンによる速度の違い(26万要素モデル)
ソフトウェアバージョンによる速度の違い(96万要素モデル)

 最後は構造解析ソフト「Abaqus 6.12-2」を使ったエンジン構造解析モデル(2.2Mdof)のテストだ。このテストは「Kepler K20」を使用して行われた。結果を見ると8CPU時に2.14kWhだった消費電力が、8CPU+1GPUのシステムでは1.25kWhと42%も削減されたことが分かる。GPUを使用することで瞬間的な消費電力は上がるが、計算時間が短いため結果的に消費電力が少なくなるという。

 また、現在はCAEにおけるコストはハードウェアよりもソフトウェアのコストの方が遙かに高い。これをGPGPUを導入して高速化するとハードウェアのコストは増えるが計算時間を短縮することで、結果として必要なソフトウェアのライセンス数を減らすことができ、システム全体のコスト削減も可能になる。

「Abaqus 6.12-2」テストの使用機材
GPGPUにおける消費電力
GPGPUの瞬間消費電力。緑のラインがGPGPUで瞬時に消費電力が上がるのが分かる
ハードウェアとソフトウェアのコスト比率

 砂山氏は最後に「今日見せていないもので実際にはまだGPGPUの効果がないものも中にはある。効果があるものでもモデルの規模によってその効果は変化することも分かった。そうしたことを踏まえてうまく使っていくようにしたい」と語って講演を終えた。

(清宮信志)