NVIDIA Blackwell AI性能で最大4倍アップHopperもH100とH200でAMD MI300Xを上回る

NVIDIAは、AI推論性能を競うMLPerf Inference v4.1において、同社の最新テクノロジーを結集し、驚異的な結果を残しました。特に注目すべきは、初登場のNVIDIA BlackwellアーキテクチャがLlama 2 70Bモデルの推論では、NVIDIA H100 Tensor Core GPUの最大4倍もの性能を発揮したことです。

また、NVIDIA H200 Tensor Core GPUもすべてのデータセンターワークロードで力強い存在感を示し、H100比で最大1.5倍の性能向上を達成。ソフトウェアの最適化により、前回のプレビュー時から最大27%の性能向上を実現しました。

さらに、NVIDIA Triton Inference Serverを使ったLlama 2 70Bの初の結果提出では、NVIDIA TensorRT-LLMとほぼ同等の性能を実現。エッジ部門のGPT-Jベンチマークでは、NVIDIA Jetson AGX Orinプラットフォームを使用し、前回から最大6.2倍の性能向上を達成しました。

それでは、主要な結果を詳しく見ていきましょう。

NVIDIA Blackwell（B200）衝撃のデビューを飾る

2024年のNVIDIA GTCで発表されたNVIDIA Blackwellアーキテクチャは、AIスーパーチップの新時代を切り開く存在です。2080億トランジスタを搭載し、NVIDIAに最適化されたTSMC 4NPプロセスを採用した史上最大のGPUであるだけでなく、第2世代Transformer Engineを搭載。新しいBlackwell Tensor Coreテクノロジーと TensorRT-LLMの革新により、高速かつ正確なFP4 AI推論を可能にしています。

今回のMLPerf Inferenceで初登場したBlackwell（B200）は、Llama 2 70Bモデルの推論でH100の最大4倍の性能（1秒あたりのトークン数）を叩き出しました。この驚異的な結果は、Blackwell FP4 Transformer Engineを存分に活用したもので、モデルの変更なしでベンチマークの高い精度要件を満たしつつ、このような高性能を実現しています。

Llama 2 70B	サーバー (tokens/s)	オフライン (tokens/s)
1 NVIDIA B200 GPU	10,756	11,264
H100 に対する増加	4x	3.7x

備考:
この表は、MLPerf Llama 2 70B ベンチマークにおけるNVIDIA Hopperと比較した場合の、NVIDIA B200 GPUの1GPUあたりの性能向上を示しています。
H100の1GPUあたりのスループットは、8GPUの結果を8で割った値です。

NVIDIA H200 Tensor Core GPU、すべてのベンチマークで卓越した性能を発揮

NVIDIA H200 GPUは、業界最速のAIメモリHBM3eを搭載し、NVIDIA Hopperアーキテクチャを強化したものです。H100と比べ、メモリ容量が1.8倍、メモリ帯域幅が1.4倍に増加し、メモリ負荷の高いユースケースで威力を発揮します。

今回、NVIDIAはH200 GPU 8基を使用し、すべてのワークロードで好結果を出しました。特にLlama 2 70Bでは、1,000ワット構成のH200が34,864トークン/秒（オフライン）、32,790トークン/秒（サーバー）を達成。700ワット構成でも31,303トークン/秒（オフライン）、30,128トークン/秒（サーバー）と、H100比で50%の性能向上を実現しています。

また、Mixtral 8x7Bの56億パラメータLLMでは、NVIDIA H100とH200がそれぞれ最大59,022トークン/秒、52,416トークン/秒を達成。AMDのInstinct MI300Xはこのワークロードで結果の提出がありませんでした。Stable Diffusion XLでも、NVIDIAのフルスタック最適化により、Hopperチップの性能が最大27%向上した一方、AMDはまだこのワークロードでのMLPerf提出を行っていません。

ベンチマーク	GPU	サーバー	オフライン
Llama 2 70B	8 H200	32,790 トークン/秒	34,864 トークン/秒
Mixtral 8x7B	8 H200	57,177 トークン/秒	59,022 トークン/秒
GPT-J	8 H200	19,243 トークン/秒	20,086 トークン/秒
Stable Diffusion XL	8 H200	16.78 クエリ/秒	17.42 サンプル/秒
DLRM v2 99%	8 H200	585,208 クエリ/秒	637,342 サンプル/秒
DLRM v2 99.9%	8 H200	370,083 クエリ/秒	390,953 サンプル/秒
ResNet-50 v1.5	8 H200	632,229 クエリ/秒	756,960 サンプル/秒
BERT 99%	8 H200	57,609 クエリ/秒	73,310 サンプル/秒
BERT 99.9%	8 H200	51,212 クエリ/秒	63,950 サンプル/秒
RetinaNet	8 H200	13,604 クエリ/秒	14,439 サンプル/秒
3D U-Net	8 H200	ベンチマーク対象外	54.71 サンプル/秒

備考:
Llama 2 70B の結果は、1000Wで設定されたH200を使用しています。
その他の結果は、700Wで設定されたH200を使用しています。

ソフトウェアの力が NVIDIA のアドバンテージを押し上げる

NVIDIAがMLPerfの各リリースで大幅な性能向上を実現できているのは、同社のソフトウェアを絶え間なく改良している成果です。このアドバンテージは、Hopper GPUを搭載したサーバーを運用する顧客に直接もたらされます。

我々が以前から主張してきたように、AIとデータセンターはハードウェアだけが全てではありません。ハードウェアも重要な要素ですが、それと同等かそれ以上に重要なのがソフトウェアです。いくら強力なハードウェアを持っていても、それを支えるソフトウェアがなければ意味がありません。AIインフラに多額の投資を行う企業は、エコシステム全体を見渡して判断を下すのです。

NVIDIAはそのエコシステムを整え、世界中の企業やAIパワーハウスにソリューションを提供する準備が整っています。だからこそ、同社は現在、各パートナー企業を通じてHGX H200の一般提供を発表しているのです。

まとめ

MLPerf Inference v4.1の結果は、NVIDIAの技術革新の力強さを示すものでした。Blackwellの圧倒的な性能、Hopperの大幅な性能向上、Triton Inference ServerとTensorRT-LLMの効果など、ハードウェアとソフトウェアの両面でNVIDIAのテクノロジーがAI推論ワークロードを大きく前進させることが実証されました。

Blackwellが発売前からこれほど高い性能を示していることを考えると、Hopperがそうであったように、このAIに特化した新アーキテクチャがさらに進化し、来年後半のBlackwell Ultraに最適化の恩恵をもたらすことが期待できます。今後も、LLMやジェネレーティブAIの分野でNVIDIAの果たす役割に大きな注目が集まるでしょう。NVIDIAは、ハードウェアとソフトウェアの両面で絶え間ない改善を続けることで、AI分野における圧倒的な優位性を維持し、拡大し続けているのです。