オンプレミスAIデータセンターの事例
AIは、世界中の企業にとって支配的な技術となっており、今後もそうなることが予想されます。ビジネス慣行を変化させ、幅広い業界でより良い意思決定を行う技術により、AIプロセスのトレーニングまたは推論フェーズを実行できるサーバーへのアクセスがかつてないほど求められています。トレーニングフェーズに必要なAIインフラストラクチャは、コスト面で大きな意味を持ちますが、ハイエンドシステム(複数のCPUとGPU)が必ずしも最良の選択とは限りません。企業のデータセンター内にAIトレーニングを導入することで、企業はコストを削減し、同時に生産性と柔軟性を高めることができます。
クラウドの利点と欠点
多くの組織がワークロードをパブリッククラウドインフラストラクチャに移行しています。パブリック・クラウドのスケーラビリティは非常に大きい可能性がありますが、数千のGPUを同時に動作させる必要があるトレーニングモデルはほとんどありません。パブリックな共有クラウドインフラストラクチャを使用する利点は、多数のハイエンド(高価な)サーバーを利用できる可能性があることです。逆に、多数のハイエンド・サーバーが必要なときに利用できない可能性もあります。さらに、大規模なトレーニングモデルのデータのイングレスとイグレスに関連するコストは、特にトレーニングデータを別のパブリック共有クラウドプロバイダーからインポートする必要がある場合、大きくなる可能性があります。
AIトレーニングのためのオンプレミス
オンプレミスのデータセンターでAIを検討・導入する理由はいくつかあります。
- コスト- GPUを搭載したサーバーの購入は高額になるかもしれませんが、長期的なコストはパブリックな共有クラウドを利用するよりも低く抑えることができます。クラウドの料金は、特にデータ移動の場合、長期的に比較的高くなる可能性があります。さらに、ハイエンドのGPUサーバーを取得するためのコストは、すべてのCPUまたはGPUが利用可能な時間の100%使用されるかどうかにかかわらず、高額になる可能性があります。
- 性能- CPUとGPUの組み合わせは、それぞれの数量と性能の両面でさまざまなものがあります。エンタープライズAIの要件を理解するには、CPUの数と性能(1、2、4、8)が不可欠です。最新世代のCPUは16コアから128コアまであり、基本クロックレートは4GHzに近づいています。GPUには、旧世代から最新リリースまで、最大数千コアのものがあります。プロジェクトのCPUとGPUの要件に応じて、データセンターに最適な複数の構成を実装することができます。
- 再トレーニング- 特定のサイズと利用可能なGPU数のモデルをトレーニングするコストを見積もる様々な方法がありますが、多くのモデルは新しいパラメータで継続的に再トレーニングする必要があります。推論精度を向上させるためには、更新された最新のデータでモデルを再トレーニングする必要があります。オンプレミスのデータセンターでは、システムを繰り返し使用することができますが、パブリッククラウドでは、モデルを反復して再トレーニングするたびに費用がかさみます。
- ソフトウェア- 効率的かつ効果的なAIトレーニングソリューションを構築する際に考慮すべきソフトウェアの選択肢は数多くあります。パブリックな共有クラウドプロバイダーは、利用可能なすべてのコンポーネントを備えていない可能性があり、パブリッククラウドインフラストラクチャで取得したインスタンスごとに追加のセットアップとテストが必要になる場合があります。
- データの所在と主権- 多くの業界や地域では、AIのトレーニングに使用するデータの所在に制限や要件がある場合があります。オンプレミスのデータセンターでは、これらの規制を遵守することができますが、リモートのパブリッククラウドデータセンターを使用することは許可されない場合があります。
- セキュリティ- 多くの組織にとって、データと結果のセキュリティは非常に重要です。オンプレミスのデータセンターでは、セキュリティ・チームがシステムやストレージ・デバイスへのアクセスに関して、より厳格なセキュリティ・ポリシーを導入することができます。社内プロセスやデータへのアクセスが必要なAIを開発・使用する場合、オンプレミ・データセンターにAIを導入するのは当然の選択です。
- コンプライアンス- データがさまざまな規制の対象となる場合、これらの規制に準拠したパブリッククラウドを特定するよりも、規制に準拠したオンプレミ・データセンターを構築する方が理想的な場合があります。

概要
AIに特化した効果的かつ効率的なオンプレムデータセンターを導入するには、企業に最適なワークロードのパフォーマンス要件を理解する必要があります。オンプレミス型データセンターは、適切に設計されていれば、AIトレーニングの結果を得るまでの時間を短縮し、モデルの種類に合わせた低レイテンシーの推論結果と決定を提供できます。オンプレミ・データセンターは、企業のニーズに対応するために低コストで独自に構成することができます。ワークロード、データ量、AIワークフローの微調整、さまざまなソフトウェアレイヤーに関する社内の専門知識を理解することで、組織にとって最適なオプションを決定することができます。