
5月28日、台北で開催されたCOMPUTEXカンファレンスにおいて、NVIDIAは人工知能(AI)の実現に重点を置いた一連の新しいハードウェアとネットワークツールを発表しました。新ラインナップには、1エクサフロップスのスーパーコンピューター「DGX GH200」クラス、企業のAIおよびハイパフォーマンスコンピューティングのニーズに対応するために設計された100以上のシステム構成オプション、高速サーバー向けのモジュール式リファレンスアーキテクチャ、そしてイーサネットベースのAIクラウドを基盤としたクラウドネットワークプラットフォームが含まれています。
これらの発表、そして共同創業者兼CEOのジェンスン・フアン氏にとってCOVID-19パンデミック開始後初の公開講演は、NVIDIAが切望されていた時価総額1兆ドル達成を視野に入れる上で大きな前進となった。そうなれば、NVIDIAはMicrosoftやAppleといった巨大テクノロジー企業に匹敵する地位に上り詰める初のチップメーカーとなるだろう。
ジャンプ先:
- AIスーパーコンピューター向けDGX GH200の特徴
- NVIDIAのスーパーコンピューティングチップの代替品
- エンタープライズライブラリはAIの導入をサポートします
- クラウド上のAI向け高速ネットワーク
- MGXサーバ仕様は近日公開予定
- データセンター管理は何が変わりますか?
- COMPUTEXにおけるNVIDIAのその他のニュース
AI スーパーコンピューター向け DGX GH200 の違いは何ですか?
NVIDIA の新しいクラスの AI スーパーコンピューターは、GH200 Grace Hopper スーパーチップと NVIDIA NVLink スイッチシステム インターコネクトを活用し、生成 AI 言語アプリケーション、レコメンデーションシステム(ユーザーが製品やコンテンツをどのように評価するかを予測する機械学習エンジン)、データ分析ワークロードを実行します(図 A)。これは、高性能チップとこの革新的なインターコネクトの両方を採用した初の製品です。
図A

NVIDIAは、DGX GH200をまずGoogle Cloud、Meta、Microsoftに提供します。次に、クラウドサービスプロバイダーやその他のハイパースケーラーにDGX GH200の設計をブループリントとして提供する予定です。2023年末までに提供開始予定です。
DGX GH200 は、組織が独自のデータ センターから AI を実行できるようにすることを目的としています。各ユニットの 256 個の GH200 スーパーチップは、1 エクサフロップスのパフォーマンスと 144 テラバイトの共有メモリを提供します。
NVIDIA は発表の中で、NVLink スイッチ システムにより、GH200 チップは従来の CPU から GPU への PCIe 接続をバイパスできるようになり、帯域幅が拡大するとともに消費電力が削減されると説明しました。
Google Cloudのコンピューティング担当副社長マーク・ローメイヤー氏は、NVIDIAのプレスリリースで、新しいHopperチップとNVLinkスイッチシステムは「大規模AIの主要なボトルネックを解決できる」と指摘した。
「大規模なAIモデルのトレーニングは、従来、多くのリソースと時間を要する作業です」と、MicrosoftのAzureインフラストラクチャ担当コーポレートバイスプレジデント、ギリッシュ・バブラニ氏はNVIDIAのプレスリリースで述べています。「DGX GH200はテラバイト規模のデータセットに対応できるため、開発者はより大規模かつ高速に高度な研究を行うことができます。」
NVIDIA は、スーパーコンピューティング機能の一部を自社でも保持し、4 基の DGX GH200 システムを搭載した Helios という独自のスーパーコンピューターの開発に取り組む予定です。
NVIDIAのスーパーコンピューティングチップの代替品
NVIDIAのGrace Hopperチップが実現するAIやスーパーコンピューティングの速度を目指す企業や顧客は多くありません。NVIDIAの最大のライバルは、Instinct MI300を製造しているAMDです。このチップはCPUコアとGPUコアの両方を搭載し、2エクサフロップスのEl Capitanスーパーコンピューターを動作させると予想されています。
IntelはFalcon Shoresチップを提供していましたが、最近、CPUとGPUの両方を搭載しないことを発表しました。代わりに、ロードマップを変更し、AIと高性能コンピューティングに重点を置き、CPUコアは搭載しないことになりました。
エンタープライズライブラリはAIの導入をサポートします
もう一つの新サービスであるNVIDIA AI Enterprise Libraryは、組織が新しいAI製品のソフトウェア層にアクセスできるよう設計されています。100以上のフレームワーク、事前学習済みモデル、開発ツールが含まれており、これらのフレームワークは、生成AI、コンピュータービジョン、音声AIなど、実稼働AIの開発と展開に適しています。
NVIDIA AI エキスパートによるオンデマンドサポートは、AI プロジェクトの導入と拡張を支援します。VMware や Red Hat のデータセンター プラットフォーム、または NVIDIA 認定システムへの AI 導入を支援します。
参照: ChatGPT または Google Bard はあなたのビジネスに適していますか?
クラウド上のAI向け高速ネットワーク
NVIDIA は、高速ネットワーク プラットフォーム Spectrum-X (図 B ) を使用して、イーサネット ベースの AI クラウドの高速化に貢献したいと考えています。
図B

「NVIDIA Spectrum-Xは、業界全体を変革する可能性を秘めた次世代AIワークロードの障壁を取り除く、新しいクラスのイーサネットネットワーキングです」と、NVIDIAのネットワーキング担当シニアバイスプレジデント、ギラッド・シャイナー氏はプレスリリースで述べた。
Spectrum-X は、単一のスイッチで接続された 256 個の 200 Gbps ポート、または 2 層スパイン/リーフ トポロジの 16,000 個のポートを備えた AI クラウドをサポートできます。
Spectrum-Xは、AIネットワーク向けに特別に設計された51TbpsイーサネットスイッチであるSpectrum-4を活用することでこれを実現します。NVIDIAによると、Spectrum-4スイッチ、BlueField-3 DPU、NVIDIA LinkXオプティクスを統合した高度なRoCE拡張機能により、AIクラウド向けに最適化されたエンドツーエンドの400GbEネットワークが構築されます。
Spectrum-X とその関連製品 (Spectrum-4 スイッチ、BlueField-3 DPU、400G LinkX オプティクス) は、Dell Technologies、Lenovo、Supermicro とのエコシステム統合を含め、現在利用可能です。
MGXサーバ仕様は近日公開予定
データセンターのパフォーマンス高速化に関するさらなるニュースとして、NVIDIAはMGXサーバー仕様をリリースしました。これは、AIやハイパフォーマンスコンピューティングに取り組むシステムメーカー向けのモジュール型リファレンスアーキテクチャです。
NVIDIAのGPU製品担当副社長であるカウストブ・サンガニ氏はプレスリリースで、「組織がエンタープライズAIを立ち上げるのを支援するためにMGXを開発しました」と述べています。
メーカーは、初期の基本システムアーキテクチャ内でGPU、DPU、CPUの設定を自由に指定できるようになります。MGXは、1U、2U、4U(空冷または液冷)を含む、現在および将来のNVIDIAサーバーフォームファクターと互換性があります。
ソフトバンクは現在、5Gサービスと生成AIアプリケーション向けにGH200スーパーチップとMGXシステムを使用するデータセンターネットワークを日本で構築することに取り組んでいます。
QCT と Supermicro は MGX を採用しており、8 月に市場に投入する予定です。
データセンター管理は何が変わりますか?
企業にとって、データセンターに高性能コンピューティングやAIを追加するには、物理的なインフラ設計とシステムの変更が必要になります。変更を行うべきかどうか、またどの程度行うべきかは、個々の状況によって異なります。シュナイダーエレクトリックのソリューションアーキテクト担当バイスプレジデントであるジョー・リール氏は、多くの大規模組織が既にデータセンターをAIと機械学習に対応させる準備を進めていると述べています。
「電力密度と放熱性がこの移行の原動力となっています」とReele氏はTechRepublicへのメールで述べています。「さらに、ホワイトスペースにおけるAI/ML向けにITキットが設計されている方法も、ケーブル配線の短縮やクラスタリングといったニーズを考慮する上で、推進力となっています。」
企業所有のデータセンターの運営者は、ビジネスの優先順位に基づいて、生成AIワークロードをサポートするためにサーバーを交換し、IT機器をアップグレードすることが合理的かどうかを判断する必要があるとリール氏は述べた。
「確かに、新しいサーバーはコンピューティング能力に関してはより効率的で強力になるでしょう。しかし、事業者はコンピューティング利用率、二酸化炭素排出量、そしてもちろんスペース、電力、冷却といった要素を考慮する必要があります。一部の事業者はサーバーインフラ戦略の調整が必要になるかもしれませんが、多くの事業者は近い将来、このような大規模なアップデートを行う必要はないでしょう」と彼は述べた。
COMPUTEXにおけるNVIDIAのその他のニュース
NVIDIA は、人工知能をベースにしたさまざまな新しい製品とサービスを発表しました。
- WPPとNVIDIA Omniverseが共同で、マーケティング向けの新しいエンジンを発表しました。このコンテンツエンジンは、広告用の動画や画像を生成できるようになります。
- スマート製造プラットフォーム「Metropolis for Factories」では、カスタム品質管理システムを作成および管理できます。
- Avatar Cloud Engine (ACE) for Gamesは、ビデオゲーム開発者向けのファウンドリーサービスです。アニメーションキャラクターがAIを利用して音声生成やアニメーションを作成できるようになります。