ニュース

SambaNova、AI向け半導体RDUなどについて「マルチコア・プロセッサの父」と呼ばれるクネル・オルクトン氏が来日公演

2022年5月26日 開催

SambaNova Systems概要

 米国のAI半導体スタートアップの「SambaNova Systems」の日本法人となるSambaNova Systems Japan合同会社(以下、両者SambaNova)は5月26日、日本で行なうイベントとしては初めてとなる「SambaNova Japan INNOVAITE セミナー」を開催した。

 セミナーにはスタンフォード大学教授で「マルチコア・プロセッサの父」と呼ばれるプロセッサ研究の専門家でもあり、SambaNova Systems共同創業者 兼 チーフテクノロジストのクネル・オルクトン(Kunle Olukotun)氏が来日し、SambaNovaが提案している新しい形のAIプロセッサの詳細などに関して説明を行なった。

ソフトバンク、Intel、Micronなどが出資するなど注目を集めているSambaNova Systems

SambaNova Systems Japan合同会社 カントリーセールスディレクター 鯨岡俊則氏

 SambaNova Systems Japan合同会社 カントリーセールスディレクター 鯨岡俊則氏は、同社の概要と日本での活動などに関して説明。鯨岡氏によればSambaNovaは2017年に創業したスタートアップ企業で、米国カリフォルニア州のパロアルト市(いわゆるシリコンバレー地区)に本社を構えている。オースティンやロンドン、そして東京に支社を構えており、主にハードウェア、ソフトウェア、AIなどのエンジニアを中心に500名超の社員を雇用している。

最も投資されたAIスタートアップ

 すでに多くの企業から出資を受けており、特にソフトバンクグループの「ソフトバンク・ビジョン・ファンド2」による出資が最大とのことだが、そのほかにもIntelの投資部門であるIntel Capitalや、メモリ半導体メーカーのMicron Technologyなどからも出資を受けているという。

 日本法人に関しては、Sun MicrosystemsからArmの日本法人アーム株式会社などでキャリアを積んできた鯨岡氏が2021年11月に立ち上げたが、その後日本マイクロソフトやNVIDIA Japanなどで活躍した林憲一氏、カスタマー担当エンジニア 村田憲彦氏が最近加わり体制を強化してきていると説明した。

データ主導型のソフトウエア2.0へ
イベントに参加したSambaNova Systems本社の社員
SambaNova Systems Japan合同会社

 そうしたSambaNovaの特徴として鯨岡氏は「かつてはSun Microsystemsのスケールアウトコンピューティングの時代から、Armの組み込みコンピューティングの時代へ、そしてこれからはデータが主導するデータフローコンピューティングの時代になると考えられている。それに合わせてソフトウェアの方もSoftware 1.0からSoftware 2.0へと進化する」と述べ、今後AIをさらに活用したコンピューティングの時代になるに向けて、大量のデータをより効率よく処理していく「データフローコンピューティング」に備えが必要だと強調した。

データを処理するソフトウェア 1.0から、データを学習するデータフローのソフトウェア 2.0へ

SambaNova Systems共同創業者 兼 チーフテクノロジスト クネル・オルクトン氏

 次いで、同社の共同創業者 兼 チーフテクノロジスト クネル・オルクトン氏が、同社の主力製品となるAI演算用のRDU(Reconfigurable Dataflow Unit)となる「Cardinal SN10」に関しての説明を行なった。オルクトン氏はスタンフォード大学のコンピュータサイエンスの教授でもあり、2000年にスタンフォード大学の「Hydra chip multiprocessor」というマルチプロセッサの先駆けとなる研究開発を主導した一人で、その研究は後に、IntelやNVIDIAといった実際にマイクプロロセッサをマルチコア化していった半導体メーカーの製品にも大きな影響を与えたとされている。そのため「マルチコア・プロセッサの父」と呼ばれることもある、マイクロプロセッサの研究開発における権威の一人だ。

2つの大きなトレンド

 オルクトン氏は「現在業界には大きなトレンドが2つある。1つはムーアの法則がスローダウンしていて、トランジスタのコストは世代を経るごとにあがっている。もう1つはマシンラーニングで、新しいアプリケーションを作り出しているが、より高い処理能力を必要としている」と述べ、マシンラーニングやディープラーニングなどが一般的な手法として用いられることで、コンピュータの処理能力への要求が高まり続ける一方だと指摘した。

ソフトウェア 1.0からソフトウェア 2.0へ

 そうした中でソフトウェアはプログラマがコードを書いてデータを処理するという従来のソフトウェア 1.0の考え方から、データを学習してそれによりさまざまな処理を行なっていくソフトウェア 2.0の考え方に移行していく必要があると指摘した。

 そして、そうしたソフトウェア 2.0の考え方で処理を行なっていくには「データフローコンピューティング」が必要になり、それに適したハードウェアとソフトウェアを利用して、それに対応したアプリケーションを開発していく必要があると説明した。具体的にはマシンラーニングのアルゴリズムをデータフローにすることで、プログラムをより小さくして実行できること、さらに並列性を向上させて実行させることが可能になることを指摘した。

AIが世界を変える
MLの変革
マシンラーニングのアルゴリズムはデータフロー
パラレルパターン
マシンラーニングのアルゴリズムはデータフローになっており、それをパラレルに処理する
ニューラルネットワークのパラメーターはより巨大に
汎用プロセッサは演算以外のことをしていることが多い
マシンラーニング向けアクセラレータ

 また、近年ではマシンラーニングが扱うパラメータやデータが巨大になりつつあり、GPUでも1024個を並列に実行させて4カ月かかるようなニューラルネットワークも増えており「2.5カ月に一度モデルサイズと必要となるコンピューティング性能は2倍になっている」という現状に対応する必要があると説明した。

 マシンラーニングの演算にCPUやGPUを使う時の課題として上がってきているのがエネルギー効率で、CPUやGPUでそうした巨大なモデルを扱うと、データの読み込みや書き込みといったメモリの読み書きなどデータの処理以外でCPU/GPUのハードウェアが消費され、演算処理は一桁台のパーセントといったレベルでしか行なえなくなり、電力効率が悪化すると指摘した。

CPU/GPUの柔軟性と、TPUなどの専用チップの電力効率の両方を兼ね備えるRDUとなるCardinal SN10

RDUの位置づけ

 そこでオルクトン氏が共同創業者の一人になっているSambaNovaではCPU、GPU、FPGA、TPUなどこれまでマシンラーニングの学習に利用されてきたプロセッサに代わる新しい選択肢としてRDA(Reconfigurable Dataflow Architecture、再定義可能なデータフローアーキテクチャ)を採用したRDU(Reconfigurable Dataflow Unit)を提案していると説明した。

RDUは柔軟性を備える
RDA

 オルクトン氏はRDUのアーキテクチャのRDAについて、現代のAIアプリケーションを作成するために使われるフレームワーク(TensorFlowやPytorchなど)が作成するパラレルパターンを、CPUやGPUといった汎用プロセッサよりも効率よく演算が可能で、TPUのような固定機能を実現するASICよりも汎用プロセッサに高い自由度を実現するAIに適したプロセッサであると説明した。

Cardinal SN10
RDUの仕組み
PCUの仕組み
PMUの仕組み

 その同社のRDUの最初の製品が「Cardinal SN10」(以下SN10)で、TSMCの7nmプロセスルールで製造され、400億トランジスタから構成されるマイクロプロセッサになる。オルクトン氏によればSN10には640基のPCU(Pattern Computing Unit)と同じ640基のPMU(Pattern Memory Unit)が用意されており、それを必要な演算のニーズに合わせて利用することで、AI演算が必要な大容量のデータを高速に処理することを実現する。

 PCUは再定義が可能なパイプライン形状のSIMD演算器で、FP32、BF16、整数などを高効率に処理することが可能になっている。PMUはオンチップのメモリで、バンク形式のSRAMアレイから構成されており、言ってみればPCUのローカルメモリとして利用することが可能になっている。

GPUなどを利用して演算する場合にはメモリアクセスなどが多発して電力を多く消費する
RDUの場合は、PCUとPMUが最適化されて実行される
AIのためのニューエンジン

 こうした仕組みを採用することで、SN10では外部メモリへのアクセスを最小限にしながらPCUで効率よくAIの演算が可能になる。演算時にPCUへの演算の割り当てをできるだけ並列に行なうだけでなく、HBMなどのDRAMに比べて100倍エネルギー効率を実現したPMUにデータを置いて演算を行うことが可能であるため、従来型の汎用プロセッサと比較すると、メモリアクセスにかかる消費電力を大幅に削減できるため、より高いエネルギー効率でAI演算が可能になる。

GPUの場合
RDUの場合
True-Res CVなど
データフローが必要なのはなぜか?

 こうした特徴によりResNetやBERT-LargeのようなモデルではGPUの方が高いパフォーマンスを発揮するが、例えば、AIS、RNNなどの処理現在はGPUだと処理が難しいとされている画像認識を4Kなどの高解像度のまま処理するTrue-Res CVなどの処理に関してはRDUの方が高い性能を発揮するという

AI入門の企業も使えるDataflow-as-a-Serviceとすでに自前の学習環境がある「DataScale」の2種類の製品を提供

SambaNova Systems カスタマーエンジニア担当副社長 ジェニファー・グローレ氏

 SambaNova Systems カスタマーエンジニア担当副社長 ジェニファー・グローレ氏は、そうした同社のRDUとなるSN10を利用した製品サービスについて説明した。

2種類の製品を提供

 グローレ氏によれば同社が提供する製品は「Dataflow-as-a-Service」という形と「DataScale」という形の2製品があり、両方ともオンプレミス、ハイブリッド(オンプレミス+パブリッククラウド)、パブリッククラウドとRDUを置く場所には制限がないという。

 Dataflow-as-a-ServiceはこれからAIのビジネスを始めようという企業や、自社でデータサイエンティストなどを抱えていない企業向け。簡単に言えば、プログラミングモデルも含めてSambaNovaが提供する提供形態でユーザーは必要となるデータだけを用意すればよい形になる。例えば、自然言語プログラムを構築しようというのであれば、同社から日本語の事前学習済みのモデルなどが提供され、それに自社で用意したデータを学習させてAIモデルを構築するなどの形で利用できる。通常AIアプリケーションの構築を開始してから製品の提供開始まで18カ月などの長い時間がかかるが、Dataflow-as-a-Serviceを利用することで、そうした時間を短縮することができる。

 DataScaleは、データサイエンティストを抱えていて、TensorFlowやPytorchなどのフレームワークを利用して自社でマシンラーニングやディープラーニングの学習を大規模に回している企業向けとなる。GPUでは性能が足りないという企業など向けの製品となる。

グローレ氏のそのほかのスライド