Wie Supermicro AMD Server hohen Durchsatz und niedrige Latenz für KI-Lösungen liefern
In modernen Unternehmen findet derzeit eine komplette Umgestaltung statt. Im Mittelpunkt steht das, was man die "KI-Revolution" nennen könnte. Unternehmen erhalten Wettbewerbsvorteile und wichtige Erkenntnisse, wenn sie fortschrittliche, KI- oder ML-basierte Anwendungen einsetzen. Zu den führenden Beispielen für solche Workloads gehören KI-basierte große Sprachmodelle (LLMs) wie ChatGPT, LLaMa und andere sowie ML-Modelle, die auf riesigen Trainingsdatensätzen, komplexen 3D-Modellen, Animation und virtueller Realität, Simulationen und anderen daten- und rechenintensiven Anwendungen basieren.
Hinter der auffälligen Rack-Hardware, die die GPU-gesteuerten Gehirne jedes KI-Clusters beherbergt, müssen Sie auch Speichersysteme mit hohem Durchsatz und niedriger Latenz finden, um den Cluster produktiv zu halten. Diese unterstützen die Kanäle, die riesige Datenmengen zum Trainieren von Modellen und zur Durchführung komplexer Simulationen und Analysen liefern, die zur Unterstützung von KI, ML und ähnlichen Arbeitslasten erforderlich sind. Eine der größten Herausforderungen für Unternehmen, die vom Wachstum der KI profitieren möchten, besteht darin, eine Speicherlösung zu finden, die ihre Hochleistungs-CPUs, GPUs oder Datenbankcluster nicht in einen Engpass bringt.
Der Heilige Gral: Hoher Durchsatz, niedrige Latenzzeit
Alle sind auf den KI-Zug aufgesprungen und suchen nach entsprechender Workload-Unterstützung. Um diesen gar nicht so verrückten Traum wahr werden zu lassen, ist eine Serverarchitektur, die für die Unterstützung anspruchsvoller Workloads optimiert ist, absolut notwendig. AMD hat seine EPYC Server-CPUs - derzeit die vierte Generation der 9004-Produktfamilie - so entwickelt, dass sie mit einer einzigen CPU die beste Leistung aus Serverhardware und -software herausholen. Die AMD EPYC™-Familie der 4. Generation bietet die folgenden Vorteile:
- Führend bei Sockel- und Pro-Core-Leistung mit bis zu 96 Zen 4 Cores in 5-nm-Core Compute Dies (CCDs)
- Führend bei Speicherbandbreite und -kapazität, mit 12 Kanälen für bis zu 6 TB DDR5-Speicher pro Sockel
- Führend im Bereich IO, mit bis zu 128 Lanes für PCIe 5.0-Zugriff für CXL-Speichergeräte, SSDs, NICs, GPUs und mehr
Die AMD EPYC Server sind von Grund auf auf maximale Leistung, Effizienz und Nachhaltigkeit ausgelegt und können den notwendigen Spagat schaffen, um CPUs, Speicher, GPUs, Storage und Netzwerkschnittstellen optimal zu nutzen. Die AMD EPYC Architektur priorisiert Threads, so dass der L3-Cache für intensive Workloads exklusiv genutzt werden kann, so dass PCIe-Lanes nicht den typischen IO-Planungs- und Konkurrenzverzögerungen unterliegen.
Dateisystemunterstützung und Vermeidung von Engpässen
Bei verteilten und parallelen Systemen kommen die Daten aus mehreren Quellen, die über verschiedene Protokolle und für verschiedene Anwendungen in großem Umfang verarbeitet werden müssen. In einem typischen Speichersystem werden Metadaten schnell zu einem Engpass. Man kann nämlich nur so viele Daten durch das System pumpen, wie die Metadaten unterstützen. Wenn die Datenmenge wächst, muss die Fähigkeit, Metadaten zu verarbeiten, proportional skaliert werden. Supermicro AMD unterstützen die verteilte WEKA-Speicherung: Er ist so konzipiert, dass eine solche proportionale Skalierung möglich ist. Das erklärt, warum trotz des Hinzufügens von mehr Datenkapazität und Service zu einem Supermicro System oder Cluster die E/A-Leistung unvermindert bleibt. Die Leistung skaliert linear von acht (Mindestanzahl der Knoten für einen WEKA-Cluster) bis zu Hunderten von Knoten. Dies geschieht durch die Beseitigung von Engpässen und die Unterstützung selbst der schwersten und anspruchsvollsten KI/ML-Workloads (und anderer ähnlicher Workloads).
Zur Optimierung von Servern und Clustern gehört jedoch mehr als die Bereitstellung eines skalierbaren, leistungsstarken Speichers mit niedriger Latenz. Bei der Entwicklung eines Gesamtsystems darf der Schwerpunkt nicht ausschließlich auf einem einzigen Merkmal oder einer einzigen Funktion liegen. Die gesamte Architektur muss zusammenarbeiten, um die angestrebten Workloads zu unterstützen. Ein System für KI-Anwendungen zu entwerfen bedeutet also, eine Laufzeitumgebung zu schaffen, die von Grund auf so konzipiert ist, dass datenintensive Anwendungen schnell und zufriedenstellend verarbeitet werden können. Dies profitiert von einer umfassenden Serverleistung für Inferenzen und Analysen sowie von allgemeinen IO-Funktionen. Was der Server mit den Daten macht, während er eine KI- (oder ähnliche) Arbeitslast verarbeitet, ist ebenso wichtig wie der Datenverkehr, der in einen bestimmten Knoten ein- und ausgeht. Die Unterstützung hochgradig paralleler Aktivitäten ist von entscheidender Bedeutung, so dass eine hohe Anzahl von Kernen zur Bewältigung aller parallelisierten Teilaufgaben, die mit der Ausführung solcher Programme verbunden sind, von entscheidender Bedeutung ist.
Ein weiteres wichtiges Merkmal ist die Anzahl der PCIe 5.0-Lanes in AMD EPYC Servern (bis zu 128 für einen einzelnen Sockel). Dies ermöglicht es Servern, größere Sammlungen von SSDs, NICs, GPUs und sogar CXL-Geräte mit erweitertem Speicher aufzunehmen. All dies spielt eine wesentliche Rolle bei der Bewältigung anspruchsvoller KI- und ML- (oder ähnlicher) Arbeitslasten, einschließlich:
- Bis zu 32 PCIe Gen5 SSDs für lokalen Hochgeschwindigkeitsspeicher
- Eine große Anzahl von Hochgeschwindigkeitsnetzschnittstellen zur Verbindung von Servern mit anderen Knoten, wie Speicher- oder anderen spezialisierten Servern, um den Datenumfang und die Reichweite zu erweitern
- Eine große Anzahl von GPUs für die Bewältigung spezieller, gezielter Aufgaben oder Workloads
Im Allgemeinen ist es wichtig, viel Speicherplatz auf den Serverknoten und eine hohe Netzwerkbandbreite zu haben, um ein angemessenes Maß an Dateneingang und -ausgang für jeden dieser Knoten von einem Speicher, der sich nicht auf dem Host befindet, zu gewährleisten. Dies ist im Wesentlichen das, was hinter den meisten Aussagen hier über hohen Durchsatz und niedrige Latenz für Supermicro AMD EPYC Server steht.
Mehr Kerne bedeuten mehr "Oomph!"
Ein weiterer entscheidender Faktor für optimierte KI-Fähigkeiten ist, dass eine hohe Kernzahl pro CPU auf Hardware-Ebene Unterstützung für einen so genannten UP (Uni- oder Einzelprozessor) bietet. AMDführende Position bei der Anzahl der Kerne (die AMD EPYC 9004 Familie unterstützt beispielsweise 24 bis 96 Kerne) bringt zahlreiche notwendige Fähigkeiten und Vorteile mit sich. Am wichtigsten ist, dass solche CPUs einen einheitlichen Speicherzugriff für alle Kerne bieten. Diese Funktion trägt zum Determinismus bei, verringert die Blockierung und macht es einfacher, Server-Motherboards für hohe Leistung zu entwerfen und zu bauen. Die AMD EPYC ist so konzipiert, dass sie die Leistung von KI-Arbeitslasten steigert und einen optimierten Netzwerk-, Speicher- und GPU-Zugriff bietet.
Ein typisches Beispiel: Supermicro H13 1U Petascale Speichersystem
Das Supermicro H13 Petascale Storage System ist ein hervorragendes Beispiel dafür, was die EPYC leisten kann. Es bietet hohe Dichten für Software-definierte Speicherung, In-Memory-Computing, datenintensives HPC, private und öffentliche Clouds und - insbesondere - AI/ML-Anwendungen. Zu seinen Spezifikationen gehören die folgenden Details:
- 16 Hot-Swap EDSFF E3.S NVMe-Steckplätze für bis zu 480 TB Speicherkapazität in einem 1U-Gehäuse
- Optional 4 CXL E3.S 2T Formfaktor Speichererweiterungsmodule plus 8 E3.S NVMe Speichergeräte
- Ein AMD EPYC™-Prozessor der 4. Generation mit bis zu 96 Kernen
- 24 DIMMs für bis zu 6 TB DDR5-Speicher
- 2 PCIe 5.0 Open Compute Project (OCP) 3.0 SFF-kompatible AIOM-Steckplätze
- 2 PCIe 5.0-Steckplätze voller Höhe und halber Länge mit zusätzlicher Stromversorgung
- Titanium-Level-Effizienz-Netzteile
Das Supermicro H13 System kann eine unschätzbare Ergänzung für jedes Rechenzentrum sein, in dem KI, ML oder andere rechen- und datenintensive Workloads einen leistungsstarken Speicherzugriff mit geringer Latenz benötigen (und davon jede Menge).
Warum die Serverarchitektur AMD und Supermicro optimal für KI geeignet ist
NVMe hat das Server- und Clusterspiel völlig verändert. Mit NVMe als Basis wird eine komplett überarbeitete Architektur möglich. Sie ermöglicht es dem Speicher, in großem Umfang und mit hoher Geschwindigkeit neben Hochleistungs-CPUs, GPUs und NICs zu arbeiten, insbesondere mit dem EDSFF-Formfaktor. Das Single-Socket-Design ermöglicht es den besten CPUs, Netzwerkkarten und Speicher vollständig auszulasten und das höchstmögliche Maß an Parallelität und Clustering-Funktionen für HPC, KI und andere Lösungen der nächsten Generation zu nutzen. Die Speicherbandbreite verdoppelt sich von AMD EPYC 3rd Gen auf 4th Gen, wodurch auch KI-Workloads besser unterstützt werden. Bei der Single-Chip-Architektur können Sie andere CPU-Ressourcen (z. B. L3-Cache und Speicherbandbreite) bevorzugt den Threads mit hohem Bedarf zuweisen, um die Leistung zu verbessern und die Latenz zu verringern. Sie können Threads zur Unterstützung solcher Arbeitslasten bis hinunter auf die Hardwareebene abstimmen. Es gibt keinen besseren, schnelleren oder effizienteren Weg, KI und ML einzusetzen als auf solchen Servern.