本文へスキップ

Supermicro AMD サーバーがAIソリューションに高スループットと低レイテンシーを提供する方法

AIには低レイテンシーのストレージが必要です:AMD EPYC™ CPUを搭載したSupermicro サーバーで今すぐ実現

現代の企業では、完全な変革が進行中です。その中心となっているのが「AI革命」です。先進的なAIやMLベースのアプリケーションを活用することで、企業は競争上の優位性や重要な洞察を得ています。そのようなワークロードの代表的な例として、ChatGPT、LLaMaなどを含むAIベースの大規模言語モデル(LLM)、膨大なトレーニングデータセットに基づくMLモデル、複雑な3Dモデル、アニメーション、バーチャルリアリティ、シミュレーション、その他のデータや計算負荷の高いアプリケーションが挙げられます。

AIクラスタのGPU駆動の頭脳を格納する派手なラックマウントハードウェアの背後には、クラスタの生産性を維持するための高スループット、低レイテンシのストレージシステムも必要です。これらのストレージは、AI、ML、および同様のワークロードをサポートするために必要な、モデルを訓練し、複雑なシミュレーションと分析を実行するために大量のデータを供給するチャネルをサポートします。実際、AIの成長を活用しようとする企業が直面する最大の課題の1つは、高性能CPU、GPU、データベース・クラスタのボトルネックにならないストレージ・ソリューションを見つけることです。

聖杯高スループット、低レイテンシー

誰もがAIの流行に乗り、対応するワークロードのサポートを求めています。このクレイジーではない夢を実現するには、要求の厳しいワークロードをサポートするために最適化されたサーバー・アーキテクチャが絶対に不可欠です。AMD 、1つのCPUでサーバーのハードウェアとソフトウェアから最高のパフォーマンスを引き出すために、現在9004製品ファミリーの第4世代に当たるEPYC サーバーCPUを構築しました。実際、第4世代のAMD EPYC™ファミリーには、次のような利点があります:

  • 5nmコアコンピュート・ダイ(CCD)に最大96個のZen 4コアを搭載し、ソケット性能とコアあたりの性能をリード
  • 1ソケットあたり最大6TBのDDR5メモリを12チャネル搭載し、メモリ帯域幅と容量で業界をリード
  • CXLメモリデバイス、SSD、NIC、GPUなど、最大128レーンのPCIe 5.0アクセスによるIOのリーダーシップ

AMD EPYCサーバーは、最大限のパフォーマンス、効率性、持続可能性を実現するためにゼロから設計されており、CPU、メモリー、GPU、ストレージ、ネットワーク・インターフェースを最大限に活用するために必要なバランスを管理することができます。実際、AMD EPYC アーキテクチャはスレッドに優先順位を付けているため、集中的なワークロード専用にL3キャッシュを固定することができ、PCIeレーンは一般的なIOスケジューリングや競合遅延の影響を受けません。

ファイルシステムのサポートとボトルネックの回避

分散モードや並列モードで何が起こるかというと、分散ファイルシステムではデータが複数のソースから届き、そのデータを様々なプロトコルや様々なアプリケーションでスケール処理する必要があります。一般的なストレージシステムでは、メタデータがすぐにボトルネックになります。実際、メタデータがサポートするのと同じ量のデータしかシステムに流せません。データ量が増大すると、メタデータを処理する能力もそれに比例して増大する必要があります。Supermicro AMD サーバーはWEKA分散ストレージをサポートしています:このような比例したスケーリングを提供するように設計されています。Supermicro システムやクラスタにデータ容量やサービスを追加しても、I/Oパフォーマンスが衰えないのはそのためです。パフォーマンスは8ノード(WEKAクラスタの最小ノード数)から数百ノードまでリニアにスケールします。ボトルネックを排除し、最も負荷の高いAI/ML(およびその他類似の)ワークロードもサポートします。

しかし、サーバーやクラスタの最適化には、スケーラブルで高性能、低レイテンシーのストレージを提供すること以上の意味があります。システム全体を設計する場合、単一の機能や特徴だけに焦点を当てることはできません。対象とするワークロードをサポートするためには、アーキテクチャ全体が協調して機能する必要があります。したがって、AIアプリケーション用のシステムを設計するということは、データ集約型のアプリケーションを迅速かつ十分に処理できるよう、ゼロから構築されたランタイム環境を構築することを意味します。これには、推論と分析のための全方位的なサーバー性能と全体的なIO機能が役立ちます。AI(または同様の)ワークロードの処理中にサーバーがデータに対して何を行うかは、任意のノードへのデータトラフィックと同様に重要です。高度に並列化されたアクティビティのサポートが不可欠であるため、そのようなプログラムの実行に関わる並列化されたサブタスクのすべてを処理できる高いコア数が重要です。

もう1つの重要な特徴は、AMD EPYCサーバーのPCIe 5.0レーン数です(シングル・ソケットで最大128)。これにより、サーバーはSSD、NIC、GPU、さらには拡張メモリCXLデバイスの大規模なコレクションに対応できるようになります。これらはすべて、要求の厳しいAIおよびML(または類似の)ワークロードを処理する上で不可欠な役割を果たします:

  • 最大32台のPCIe Gen5 SSDによる高速ローカルストレージ
  • サーバーをストレージや他の専用サーバーなどの他のノードに接続し、データ範囲や到達範囲を拡張するための多数の高速ネットワーク・インターフェース
  • 特化されたターゲットタスクやワークロードを処理するための大量のGPU

一般的に、サーバーノードに多くのストレージを搭載し、高いネットワーク帯域幅を確保して、ホスト上に存在しないストレージから各ノードに対して適切なレベルのデータのイングレスとイグレスを提供することが重要です。Supermicro AMD EPYC サーバーの高スループットと低レイテンシーに関するここでの記述のほとんどは、基本的にこれが背景にあります。

より多くのコアが、より大きな "力 "を意味します。

AI能力を最適化するもう1つの重要な要因は、CPUあたりのコア数が多いことで、UP(ユニまたはシングル・プロセッサー)と呼ばれるハードウェア・レベルのサポートが提供されることです。コア数におけるAMDリーダーシップ(例えば、AMD EPYC 9004ファミリーは24コアから96コアをサポート)は、多くの必要な機能と利点をもたらします。最も重要な点は、このようなCPUはすべてのコアに対して均一なメモリ・アクセスを提供することです。この機能は決定論に役立ち、ブロッキングを低減し、サーバー・マザーボードの設計と構築を高性能のために容易にします。設計上、AMD EPYC アーキテクチャはAIワークロードのパフォーマンスを高め、最適化されたネットワーク、ストレージ、GPUアクセスを提供します。

ケース・イン・ポイントSupermicro H13 1U ペタスケールストレージシステム

Supermicro H13ペタスケールストレージシステムは、EPYC アーキテクチャで何ができるかを端的に示しています。このシステムは、Software-Defined Storage、インメモリ・コンピューティング、データ集約型HPC、プライベートおよびパブリック・クラウド、そして特にAI/MLアプリケーション向けに高密度を提供します。その仕様の詳細は以下のとおりです:

  • ホットスワップEDSFF E3.S NVMeスロット×16、1Uシャーシに最大480TBのストレージを搭載可能
  • オプションのCXL E3.S 2Tフォーム・ファクタ・メモリ拡張モジュール4台とE3.S NVMeストレージ・デバイス8台
  • 第4世代AMD EPYC™プロセッサー1基(最大96コア
  • 24枚のDIMMで最大6TBのDDR5メモリを搭載可能
  • 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF準拠AIOMスロット
  • 補助電源付きフルハイト・ハーフレングスPCIe 5.0スロット×2
  • チタンレベルの効率電源

Supermicro H13システムは、AI、ML、その他の計算およびデータ集約型のワークロードが高性能で低レイテンシのストレージアクセスを必要とするデータセンターにとって、非常に貴重な追加要素となります。

AMD Supermicro サーバー・アーキテクチャがAIに最適な理由

NVMeはサーバとクラスタのゲームを完全に変えました。NVMeをベースとすることで、アーキテクチャを完全に作り直すことが可能になりました。特にEDSFFフォーム・ファクタでは、高性能CPU、GPU、NICとともに、ストレージをスケールと速度で動作させることができます。シングルソケット設計により、最高のCPUがネットワークカードとストレージを完全に飽和させ、HPC、AI、その他の次世代ソリューション向けに最高レベルの並列処理とクラスタリング機能を活用することができます。性能と消費電力のバランスを取りながら持続可能性をサポートするメモリ帯域幅は、AMD EPYC 第3世代から第4世代へと倍増し、AIワークロードもよりよくサポートします。シングルチップ・アーキテクチャーを扱う場合、他のCPUリソース(L3キャッシュやメモリー帯域幅など)を需要の高いスレッドに優先的に割り当てて、パフォーマンスを向上させ、レイテンシーを削減することができます。このようなワークロードをサポートするために、ハードウェアレベルまでスレッドを調整することができます。AIやMLを活用する上で、このようなサーバーほど優れた、高速で効率的な方法はありません。