NVIDIA、新しいTensorRT-LLMソフトウェアライブラリでLLM推論パフォーマンスを向上

NVIDIA、新しいTensorRT-LLMソフトウェアライブラリでLLM推論パフォーマンスを向上
LLM 推論の図解。
LLM推論の図解。画像提供:NVIDIA

d-Matrix などの企業が、切望される推論インフラストラクチャを駆使して利益率の高い人工知能市場に参入する中、AI リーダーの NVIDIA は本日、AI 推論処理を高速化するように設計された LLM 推論テクノロジのライブラリである TensorRT-LLM ソフトウェアを発表しました。

ジャンプ先:

  • TensorRT-LLM とは何ですか?
  • TensorRT-LLM が NVIDIA GPU のパフォーマンスを向上させる仕組み
  • NVIDIAのAI総所有コスト削減計画

TensorRT-LLM とは何ですか?

TensorRT-LLMは、NVIDIA Tensor Core GPU上で動作するオープンソースライブラリです。ChatGPTのような生成AIの基盤となる、新しい大規模言語モデルの構築を開発者が実験できる場を提供するために設計されています。

特に、TensorRT-LLMは推論(AIのトレーニングの改良、つまりシステムが概念を結び付けて予測を行う方法を学習する方法)と、LLMの定義、最適化、実行をカバーします。NVIDIAによると、TensorRT-LLMはNVIDIA GPU上での推論実行速度を向上させることを目指しています。

TensorRT-LLM は、Meta Llama 2、OpenAI GPT-2 および GPT-3、Falcon、Mosaic MPT、BLOOM などの今日の重量級 LLM のバージョンを構築するために使用されます。

これを実現するために、TensorRT-LLM には、TensorRT ディープラーニング コンパイラ、最適化されたカーネル、前処理と後処理、マルチ GPU およびマルチノード通信、オープンソースの Python アプリケーション プログラミング インターフェイスが含まれています。

NVIDIA は、開発者が TensorRT-LLM を使用するために C++ や NVIDIA CUDA に関する深い知識を必要としないことが魅力の一部であると指摘しています。

参照:Microsoftは、ジェネレーティブAIをビジネスに適用する方法を学びたい人向けに無料のコースを提供しています。(TechRepublic)

「TensorRT-LLMは使いやすく、トークンのストリーミング、インフライトバッチ処理、ページングアテンション、量子化など、豊富な機能を備え、効率的です」と、Databricksのエンジニアリング担当副社長であるNaveen Rao氏はNVIDIAのプレスリリースで述べています。「NVIDIA GPUを使用したLLMサービスにおいて最先端のパフォーマンスを提供し、コスト削減をお客様に還元できます。」

Databricks は、TensorRT-LLM を早期に検討した企業の 1 つです。

TensorRT-LLMへの早期アクセスは、NVIDIA開発者プログラムに登録した方を対象に現在利用可能です。NVIDIAは最初のプレスリリースで、今後数週間以内に一般公開される予定だと述べています。

TensorRT-LLM が NVIDIA GPU のパフォーマンスを向上させる仕組み

NVIDIAによると、記事要約を実行するLLMは、TensorRT-LLMとNVIDIA H100 GPUを組み合わせることで、LLMライブラリなしの前世代NVIDIA A100チップで同じタスクを実行した場合と比較して高速化しました。H100のみの場合、GPT-J 6B LLM推論のパフォーマンスは4倍向上しました。TensorRT-LLMソフトウェアでは8倍の向上が見られました。

特に、TensorRT-LLM はデバイス間で異なる重み行列を分割する手法を使用しているため、推論を高速に実行できます。(重み付けは、AI モデルにどのデジタルニューロンを互いに関連付けるべきかを学習させます。)テンソル並列処理と呼ばれるこの手法により、複数の GPU と複数のサーバーにまたがって同時に並列に推論を実行できます。

NVIDIAによると、インフライトバッチ処理は推論の効率を向上させるとのことです。簡単に言えば、生成されたテキストのバッチ処理を、一度にすべてではなく、1つずつ生成できるということです。インフライトバッチ処理やその他の最適化は、GPUの使用率を向上させ、総所有コストを削減するように設計されています。

「NVIDIA TensorRT-LLMは、お客様やパートナーとの長年にわたる協業経験に基づいて構築されており、最先端のディープラーニングネットワークコンパイラであるTensorRTを使用してLLMから最高のパフォーマンスを引き出します」と、NVIDIAのハイパースケールおよびHPC担当バイスプレジデントであるイアン・バック氏はTechRepublicへのメールで述べています。「カスタムGPUカーネルと、幅広い一般的なLLMモデル向けの最適化が含まれています。また、NVIDIA H100 Transformer Engineで利用可能な新しいFP8数値形式を、使いやすくカスタマイズ可能なPythonインターフェースで実装しています。」

NVIDIAのAI総所有コスト削減計画

LLMの利用にはコストがかかります。実際、LLMはデータセンターとAIトレーニングを企業のバランスシートに組み込む方法を変えるとNVIDIAは示唆しています。TensorRT-LLMの背後にある考え方は、企業が総所有コストを急騰させることなく、複雑な生成AIを構築できるようにすることです。

Tagged: