NVIDIA は、11 月 13 日にデンバーで開催されたスーパーコンピューティング '23 カンファレンスで、高性能コンピューティング向けの NVIDIA GH200 Grace Hopper スーパーチップと、AI トレーニング向けの HGX H200 システムおよびクラウド インスタンスの提供範囲を拡大すると発表しました。
ジャンプ先:
- NVIDIA HGX GH200 スーパーコンピューターは、生成 AI と高性能コンピューティングのワークロードを強化します。
- NVIDIAのGH200チップはスーパーコンピューティングとAIトレーニングに適している
NVIDIA HGX GH200 スーパーコンピューターは、生成 AI と高性能コンピューティングのワークロードを強化します。
NVIDIA H200 Tensor Core GPUを基盤とするHGX GH200スーパーコンピューティング プラットフォームは、NVIDIAと提携しているサーバーメーカーおよびハードウェアプロバイダーを通じて提供されます。HGX GH200は、2024年第2四半期にクラウドプロバイダーおよびメーカーから出荷開始される予定です。
Amazon Web Services、Google Cloud、Microsoft Azure、CoreWeave、Lambda、Vultr、Oracle Cloud Infrastructure は、2024 年に H200 ベースのインスタンスを提供する予定です。
NVIDIA HGX H200 の機能は次のとおりです。
- 膨大な量のメモリ (4.8 テラバイト/秒で 141 GB のメモリ) を必要とする生成 AI および高性能コンピューティング ワークロード向けの NVIDIA H200 Tensor Core GPU。
- NVIDIA H100 と比較して、700 億パラメータの LLM である Llama 2 の推論速度が 2 倍になります。
- HBM3e を搭載した NVIDIA GH200 Grace Hopper スーパーチップと相互運用可能です。
- 既存のパートナーである ASRock Rack、ASUS、Dell Technologies、Eviden、GIGABYTE、Hewlett Packard Enterprise、Ingrasys、Lenovo、QCT、Supermicro、Wistron、Wiwynn のサーバーを含む、あらゆるタイプのデータ センターに導入可能です。
- 1,750 億のパラメータを超える最大規模の LLM モデルの推論とトレーニングを提供できます。
- 32 ペタフロップスを超える FP8 ディープラーニング コンピューティングと 1.1 TB の総高帯域幅メモリ。
「生成AIとHPCアプリケーションでインテリジェンスを生み出すには、大規模で高速なGPUメモリを使用して、膨大な量のデータを高速かつ効率的に処理する必要があります」と、NVIDIAのハイパースケールおよびHPC担当副社長、イアン・バック氏はプレスリリースで述べています。
NVIDIAのGH200チップはスーパーコンピューティングとAIトレーニングに適している
NVIDIAは、スーパーコンピューティングとAIトレーニングを強化するため、GH200チップ(図A)を搭載したHPE Cray EX2500スーパーコンピューターの提供を開始します。HPEは、NVIDIAのHPE Cray EX2500スーパーコンピューター構成の一部に組み込まれた、生成型AI向けスーパーコンピューティングソリューションを発表しました。
図A

GH200は、NVIDIA NVLink-C2Cインターコネクトテクノロジーを採用したArmベースのNVIDIA Grace CPUおよびHopper GPUアーキテクチャを搭載しています。NVIDIAはSupercomputing '23において、GH200がDell Technologies、Eviden、Hewlett Packard Enterprise、Lenovo、QCT、Supermicroのシステムに搭載される予定であると発表しました。
参照:NVIDIAが7月にAIトレーニング・アズ・ア・サービスを発表(TechRepublic)
HPEのHPC、AI、ラボ担当エグゼクティブバイスプレジデント兼ゼネラルマネージャーであるジャスティン・ホタード氏はブログ記事で、「企業はビジネス変革と技術革新を加速するために、ジェネレーティブAIを急速に導入しています。NVIDIAと協力し、Grace Hopperなどのテクノロジーを活用したジェネレーティブAI向けの包括的なスーパーコンピューティングソリューションを提供できることを大変嬉しく思います。これにより、お客様は大規模なAIモデルのトレーニングとチューニングを、これまでにない効率性で容易に加速できるようになります。」と述べています。
GH200 で何ができるのでしょうか?
HPEのようなプロジェクトは、スーパーコンピューティングが生成型AIトレーニングに応用できることを示しており、これはエンタープライズコンピューティングにも活用できる可能性があります。GH200は、音声認識、レコメンデーションシステム、ハイパースケール推論といったワークロードに対応するNVIDIA AI Enterpriseソフトウェアスイートと相互運用可能です。企業のデータと組み合わせて使用することで、そのデータでトレーニングされた大規模言語モデルを実行することも可能です。
NVIDIA、新たなスーパーコンピューティング研究センターとの提携を締結
NVIDIAは、世界中のスーパーコンピューティングセンターとの提携を発表しました。ドイツのユーリッヒ・スーパーコンピューティングセンターの科学スーパーコンピュータ「JUPITER」は、GH200スーパーチップを採用します。JUPITERは、科学コミュニティ向けに、気候・気象研究、材料科学、創薬、産業工学、量子コンピューティングのためのAI基盤モデルを作成するために使用されます。テキサス先端コンピューティングセンターのVistaスーパーコンピュータと、ブリストル大学が開発中のIsambard-AIスーパーコンピュータも、GH200スーパーチップを採用する予定です。
さまざまなクラウドプロバイダーがGH200アクセスを提供しています
クラウドプロバイダーのLambdaとVultrは現在、NVIDIA GH200の早期アクセスを提供しています。Oracle Cloud InfrastructureとCoreWeaveは、将来的にNVIDIA GH200インスタンスを提供する予定で、CoreWeaveについては2024年第1四半期から提供開始予定です。ただし、Oracleは具体的な日付を明らかにしていません。