NVIDIA、OpenAI GPT-4oを上回る最新LLM「Llama-3.1-Nemotron-70B-Instruct」を発表

AIの応答精度と問題解決能力を飛躍的に向上させる新モデルが登場

2024年10月18日

更新日: 2024年10月18日

21

当サイトではアフィリエイトプログラム（Amazonアソシエイト含む）を利用して商品を紹介しています

NVIDIAが、AI業界に革命をもたらす可能性のある新しい大規模言語モデル（LLM）「Llama-3.1-Nemotron-70B-Instruct」を発表しました。このモデルは、OpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetを上回る性能を示し、AI研究者やエンジニアの注目を集めています。

NVIDIAは、AIハードウェア市場での支配的な地位を確立した後、今度はオープンソースLLMの分野で新たな一歩を踏み出しました。Metaとの協力のもと開発された「Llama-3.1-Nemotron-70B-Instruct」は、人間の嗜好に合わせたより具体的で正確な応答を生成することを目指しています。

「ストロベリー問題」を解決するAIの新たな進化

「Llama-3.1-Nemotron-70B-Instruct」の特筆すべき成果の一つに、従来のAIモデルが苦手としていた「ストロベリー問題」の解決があります。これは単語内の特定の文字をカウントする問題で、人間には簡単でもAIには難しいタスクでした。NVIDIAの新モデルがこの問題を克服したことは、AIの言語理解能力が人間に近づいていることを示しています。

ベンチマークで業界トップの性能を実証

「Llama-3.1-Nemotron-70B-Instruct」は、複数の権威あるベンチマークテストで優れた結果を示しました。特に注目すべきは、指示調整されたLLMの自動評価ツールである「Arena Hard」での成績です。

以下の表は、主要なAIモデルとの比較結果を示しています：

モデル名	Arena Hard (95% CI)	AlpacaEval (2 LC, SE)	MT-Bench (GPT-4-Turbo)	平均応答長 (# of Characters for MT-Bench)
Llama-3.1-Nemotron-70B-Instruct	85.0 (-1.5, 1.5)	57.6 (1.65)	8.98	2199.8
Llama-3.1-70B-Instruct	55.7 (-2.9, 2.7)	38.1 (0.90)	8.22	1728.6
Llama-3.1-405B-Instruct	69.3 (-2.4, 2.2)	39.3 (1.43)	8.49	1664.7
Claude-3-5-Sonnet-20240620	79.2 (-1.9, 1.7)	52.4 (1.47)	8.81	1619.9
GPT-4o-2024-05-13	79.3 (-2.1, 2.0)	57.5 (1.47)	8.74	1752.2

この結果から、NVIDIAの新モデルがOpenAIのGPT-4oやAnthropicのClaude 3.5 Sonnetを上回る性能を持つことが分かります。

技術の詳細と利用可能性

「Llama-3.1-Nemotron-70B-Instruct」は、Metaの「Llama-3.1-70B-Instruct Base」をベースに、NVIDIAが独自の調整を加えたものです。特に「SteerLM Regression Reward Modelling」と呼ばれる手法を用いて、AIの応答をユーザーの要求により近づけることに成功しています。

このモデルは、NVIDIAの「NIM」プラットフォームまたはHuggingFaceで利用可能です。複雑なコーディングタスクや推論中心の問題での具体的なパフォーマンスはまだ明らかではありませんが、初期のベンチマーク結果は非常に有望です。

まとめ

NVIDIAの「Llama-3.1-Nemotron-70B-Instruct」は、AIの応答精度と問題解決能力を大幅に向上させる可能性を秘めています。OpenAIやAnthropicなどの強力な競合を上回る性能を示したことで、NVIDIAがAI業界でのリーダーシップをさらに強化することが予想されます。今後、このモデルがさまざまな実用的なアプリケーションでどのように活用されるか、その展開が注目されています。

SourceHugging Face

Tags
NVIDIA

NVIDIA、OpenAI GPT-4oを上回る最新LLM「Llama-3.1-Nemotron-70B-Instruct」を発表

「ストロベリー問題」を解決するAIの新たな進化

ベンチマークで業界トップの性能を実証

技術の詳細と利用可能性

まとめ

今日のおすすめ

今日のおすすめ

RELATED ARTICLES

コメントを残す コメントをキャンセル

おすすめ

人気記事

カテゴリー

アーカイブ

ABOUT US

コメントを残すコメントをキャンセル