ホームガジェットパソコンパーツNVIDIA Blackwell AI性能で最大4倍アップHopperもH100とH200でAMD ...

NVIDIA Blackwell AI性能で最大4倍アップHopperもH100とH200でAMD MI300Xを上回る

当サイトではアフィリエイトプログラム(Amazonアソシエイト含む)を利用して商品を紹介しています

NVIDIAは、AI推論性能を競うMLPerf Inference v4.1において、同社の最新テクノロジーを結集し、驚異的な結果を残しました。特に注目すべきは、初登場のNVIDIA BlackwellアーキテクチャがLlama 2 70Bモデルの推論では、NVIDIA H100 Tensor Core GPUの最大4倍もの性能を発揮したことです。

また、NVIDIA H200 Tensor Core GPUもすべてのデータセンターワークロードで力強い存在感を示し、H100比で最大1.5倍の性能向上を達成。ソフトウェアの最適化により、前回のプレビュー時から最大27%の性能向上を実現しました。

さらに、NVIDIA Triton Inference Serverを使ったLlama 2 70Bの初の結果提出では、NVIDIA TensorRT-LLMとほぼ同等の性能を実現。エッジ部門のGPT-Jベンチマークでは、NVIDIA Jetson AGX Orinプラットフォームを使用し、前回から最大6.2倍の性能向上を達成しました。

それでは、主要な結果を詳しく見ていきましょう。

NVIDIA Blackwell(B200)衝撃のデビューを飾る

2024年のNVIDIA GTCで発表されたNVIDIA Blackwellアーキテクチャは、AIスーパーチップの新時代を切り開く存在です。2080億トランジスタを搭載し、NVIDIAに最適化されたTSMC 4NPプロセスを採用した史上最大のGPUであるだけでなく、第2世代Transformer Engineを搭載。新しいBlackwell Tensor Coreテクノロジーと TensorRT-LLMの革新により、高速かつ正確なFP4 AI推論を可能にしています。

NVIDIA Blackwell Compute-node
NVIDIA Blackwell Compute-node

今回のMLPerf Inferenceで初登場したBlackwell(B200)は、Llama 2 70Bモデルの推論でH100の最大4倍の性能(1秒あたりのトークン数)を叩き出しました。この驚異的な結果は、Blackwell FP4 Transformer Engineを存分に活用したもので、モデルの変更なしでベンチマークの高い精度要件を満たしつつ、このような高性能を実現しています。

Llama 2 70Bサーバー (tokens/s)オフライン (tokens/s)
1 NVIDIA B200 GPU10,75611,264
H100 に対する増加4x3.7x
備考:
この表は、MLPerf Llama 2 70B ベンチマークにおけるNVIDIA Hopperと比較した場合の、NVIDIA B200 GPUの1GPUあたりの性能向上を示しています。
H100の1GPUあたりのスループットは、8GPUの結果を8で割った値です。

NVIDIA H200 Tensor Core GPU、すべてのベンチマークで卓越した性能を発揮

NVIDIA H200 GPUは、業界最速のAIメモリHBM3eを搭載し、NVIDIA Hopperアーキテクチャを強化したものです。H100と比べ、メモリ容量が1.8倍、メモリ帯域幅が1.4倍に増加し、メモリ負荷の高いユースケースで威力を発揮します。

今回、NVIDIAはH200 GPU 8基を使用し、すべてのワークロードで好結果を出しました。特にLlama 2 70Bでは、1,000ワット構成のH200が34,864トークン/秒(オフライン)、32,790トークン/秒(サーバー)を達成。700ワット構成でも31,303トークン/秒(オフライン)、30,128トークン/秒(サーバー)と、H100比で50%の性能向上を実現しています。

また、Mixtral 8x7Bの56億パラメータLLMでは、NVIDIA H100とH200がそれぞれ最大59,022トークン/秒、52,416トークン/秒を達成。AMDのInstinct MI300Xはこのワークロードで結果の提出がありませんでした。Stable Diffusion XLでも、NVIDIAのフルスタック最適化により、Hopperチップの性能が最大27%向上した一方、AMDはまだこのワークロードでのMLPerf提出を行っていません。

ベンチマークGPUサーバーオフライン
Llama 2 70B8 H20032,790 トークン/秒34,864 トークン/秒
Mixtral 8x7B8 H20057,177 トークン/秒59,022 トークン/秒
GPT-J8 H20019,243 トークン/秒20,086 トークン/秒
Stable Diffusion XL8 H20016.78 クエリ/秒17.42 サンプル/秒
DLRM v2 99%8 H200585,208 クエリ/秒637,342 サンプル/秒
DLRM v2 99.9%8 H200370,083 クエリ/秒390,953 サンプル/秒
ResNet-50 v1.58 H200632,229 クエリ/秒756,960 サンプル/秒
BERT 99%8 H20057,609 クエリ/秒73,310 サンプル/秒
BERT 99.9%8 H20051,212 クエリ/秒63,950 サンプル/秒
RetinaNet8 H20013,604 クエリ/秒14,439 サンプル/秒
3D U-Net8 H200ベンチマーク対象外54.71 サンプル/秒
備考:
Llama 2 70B の結果は、1000Wで設定されたH200を使用しています。
その他の結果は、700Wで設定されたH200を使用しています。

ソフトウェアの力が NVIDIA のアドバンテージを押し上げる

NVIDIAがMLPerfの各リリースで大幅な性能向上を実現できているのは、同社のソフトウェアを絶え間なく改良している成果です。このアドバンテージは、Hopper GPUを搭載したサーバーを運用する顧客に直接もたらされます。

我々が以前から主張してきたように、AIとデータセンターはハードウェアだけが全てではありません。ハードウェアも重要な要素ですが、それと同等かそれ以上に重要なのがソフトウェアです。いくら強力なハードウェアを持っていても、それを支えるソフトウェアがなければ意味がありません。AIインフラに多額の投資を行う企業は、エコシステム全体を見渡して判断を下すのです。

NVIDIAはそのエコシステムを整え、世界中の企業やAIパワーハウスにソリューションを提供する準備が整っています。だからこそ、同社は現在、各パートナー企業を通じてHGX H200の一般提供を発表しているのです。

まとめ

MLPerf Inference v4.1の結果は、NVIDIAの技術革新の力強さを示すものでした。Blackwellの圧倒的な性能、Hopperの大幅な性能向上、Triton Inference ServerとTensorRT-LLMの効果など、ハードウェアとソフトウェアの両面でNVIDIAのテクノロジーがAI推論ワークロードを大きく前進させることが実証されました。

Blackwellが発売前からこれほど高い性能を示していることを考えると、Hopperがそうであったように、このAIに特化した新アーキテクチャがさらに進化し、来年後半のBlackwell Ultraに最適化の恩恵をもたらすことが期待できます。今後も、LLMやジェネレーティブAIの分野でNVIDIAの果たす役割に大きな注目が集まるでしょう。NVIDIAは、ハードウェアとソフトウェアの両面で絶え間ない改善を続けることで、AI分野における圧倒的な優位性を維持し、拡大し続けているのです。

SourceNVIDIA

今日のおすすめ

今日のおすすめ

コメントを残す

コメントを入力してください
ここにあなたの名前を入力してください
Captcha verification failed!
Captchaユーザースコアが失敗しました。お問い合わせください!

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)