Zum Hauptinhalt springen

Das Argument für On-Prem KI

KI ist zu einer dominierenden Technologie für Unternehmen weltweit geworden und wird dies auch in Zukunft bleiben. Die Technologie zur Änderung von Geschäftspraktiken und zur besseren Entscheidungsfindung in einer Vielzahl von Branchen hat zu einer beispiellosen Nachfrage nach Servern geführt, die die Trainings- oder Inferenzphase des KI durchführen können. Die für die Trainingsphase benötigte KI kann erhebliche Kosten verursachen, aber ein High-End-System (mehrere CPUs und GPUs) ist nicht immer die beste Wahl. Durch die Implementierung der KI im Rechenzentrum eines Unternehmens können Organisationen Kosten senken und gleichzeitig produktiver und flexibler werden.

Vorteile und Nachteile der Cloud

Viele Unternehmen verlagern ihre Arbeitslasten in eine öffentliche Cloud-Infrastruktur, die per Definition von vielen Kunden gemeinsam genutzt wird. Während die Skalierbarkeit in einer öffentlichen Cloud recht groß sein kann, benötigen nur sehr wenige Schulungsmodelle Tausende von gleichzeitig arbeitenden GPUs. Ein Vorteil der Nutzung einer öffentlichen, gemeinsam genutzten Cloud-Infrastruktur ist, dass eine große Anzahl von (teuren) High-End-Servern zur Verfügung stehen kann. Umgekehrt kann es sein, dass eine große Anzahl von High-End-Servern nicht verfügbar ist, wenn sie benötigt wird. Darüber hinaus können die mit dem Dateneingang und -ausgang für große Trainingsmodelle verbundenen Kosten erheblich sein, insbesondere wenn die Trainingsdaten von einem anderen öffentlichen, gemeinsam genutzten Cloud-Anbieter importiert werden müssen.

On-Prem für KI

Es gibt mehrere Gründe, KI in einem On-Premise-Rechenzentrum in Betracht zu ziehen und zu implementieren.

  • Kosten - Die Anschaffung von Servern mit GPUs kann zwar teuer sein, aber die langfristigen Kosten können im Vergleich zur Nutzung einer öffentlichen, gemeinsam genutzten Cloud niedriger sein. Cloud-Gebühren können im Laufe der Zeit relativ hoch sein, insbesondere für Datenbewegungen. Darüber hinaus können die Kosten für die Anschaffung eines High-End-GPU-Servers hoch sein, unabhängig davon, ob alle CPUs oder GPUs zu 100 % der verfügbaren Zeit genutzt werden, was unwahrscheinlich ist.
  • Leistung - Es gibt eine Reihe von CPU- und GPU-Kombinationen, sowohl in Bezug auf die Anzahl als auch auf die Leistung der einzelnen Komponenten. Wenn man die KI des Unternehmens kennt, sind die Anzahl und die Leistung der CPUs (1, 2, 4 oder 8) von entscheidender Bedeutung. Die neueste Generation von CPUs verfügt über 16 bis 128 Kerne und eine Basistaktrate von annähernd 4 GHz. Es gibt eine Reihe von GPUs, von älteren Generationen bis hin zu den neuesten Versionen, mit bis zu Tausenden von Kernen. Je nach den CPU- und GPU-Anforderungen des Projekts können in einem Rechenzentrum optimale und mehrere Konfigurationen implementiert werden.
  • Neutrainieren - Es gibt zwar verschiedene Methoden zur Schätzung der Kosten für das Trainieren eines Modells einer bestimmten Größe und Anzahl der verfügbaren GPUs, aber viele Modelle müssen ständig mit neuen Parametern neu trainiert werden. Um die Genauigkeit der Schlussfolgerungen zu gewährleisten, muss das Modell mit aktualisierten und neueren Daten neu trainiert werden, was je nach der Menge der zu verwendenden neuen Daten genauso lange dauern kann wie das ursprüngliche Training. In einem On-Prem-Rechenzentrum können die Systeme wiederholt verwendet werden, während in der öffentlichen Cloud die Kosten mit jeder Iteration und jedem Neutraining des Modells ansteigen können.
  • Software - Bei der Entwicklung einer effizienten und effektiven KI gibt es viele Softwareoptionen zu berücksichtigen. Ein öffentlicher, gemeinsam genutzter Cloud-Anbieter verfügt möglicherweise nicht über alle verfügbaren Komponenten, so dass für jede in einer öffentlichen Cloud-Infrastruktur erworbene Instanz zusätzliche Einstellungen und Tests erforderlich sein können.
  • Datenstandort und -souveränität - In vielen Branchen und Regionen kann es Einschränkungen und Anforderungen geben, wo die für KI verwendeten Daten gespeichert werden müssen. Mit einem On-Premise-Rechenzentrum können Unternehmen diese Vorschriften einhalten, während die Verwendung eines entfernten, öffentlichen Cloud-Rechenzentrums möglicherweise nicht zulässig ist.
  • Sicherheit - Für viele Unternehmen ist die Sicherheit von Daten und Ergebnissen von entscheidender Bedeutung. In einem On-Premise-Rechenzentrum können Sicherheitsteams strengere Sicherheitsrichtlinien hinsichtlich des Zugriffs auf die Systeme oder Speichergeräte umsetzen. Bei der Erstellung und Nutzung von KI , die Zugang zu internen Prozessen und Daten benötigt, ist die Implementierung von KI in einem On-Premise-Rechenzentrum eine naheliegende Wahl.
  • Einhaltung von Vorschriften - Wenn die Daten verschiedenen Vorschriften unterliegen, kann die Einrichtung eines konformen On-Prem-Rechenzentrums ideal sein, im Vergleich zur Suche nach einer öffentlichen Cloud, die sich an diese Vorschriften hält.
Trio von Supermicro KI GPU Systemen: 8U System, 4U System, 5U System

Zusammenfassung

Die Implementierung eines effektiven und effizienten KI Rechenzentrums vor Ort erfordert ein Verständnis der Leistungsanforderungen für die Arbeitslasten, die für das Unternehmen am besten geeignet sind. Ein richtig konzipiertes On-Premise-Rechenzentrum kann die Zeit bis zum Erhalt von KI verkürzen und Inferenzergebnisse und Entscheidungen mit geringer Latenz liefern, die auf den Modelltyp abgestimmt sind. Ein On-Premise-Rechenzentrum kann einzigartig und kostengünstig konfiguriert werden, um den Anforderungen des Unternehmens gerecht zu werden. Die Kenntnis der Arbeitslasten, der Datenmenge, der Feinabstimmung des KI und der unternehmensinternen Fachkenntnisse in Bezug auf die verschiedenen Softwareschichten tragen dazu bei, die beste Option für das Unternehmen zu ermitteln.