TL:DR
- AIワークロードは電力密度を5〜10 kW/ラックから100 kW/ラックへと押し上げ、最大1.2 kWに達する各GPUの熱を管理するために液冷システムを必要とします。
- サステナビリティに重点を置き、グローバルなデータセンターへ再生可能エネルギー源を導入することは、高い運用効率の基準と合致し、業界全体のエネルギー実践におけるベンチマークとなります。
- 現代のデータセンターはAIを念頭に置いて専用設計されており、グローバル市場全体でシームレスな相互接続を可能にし、多様なワークロードに対して効率的で低遅延のパフォーマンスを提供します。
ビジネスリーダーは、組織をよりスマートかつ効率的に運営するためのAI戦略の導入に取り組んでいます。しかし、AIのビジネス価値を引き出す使命を帯びた人々でさえ、その価値を可能にする技術的要素を常に理解しているとは限りません。
今日の機械学習アルゴリズムは目覚ましいものですが、魔法ではありません。それらは実際のデータセンター内で稼働する実際のハードウェア上に構築されています。事実、多くの組織がインフラストラクチャのミスマッチに直面しています。過去に役立っていたデータセンターが、新たなAIワークロードの要求に追いついていないのです。
企業はAIを念頭に設計されたハイパフォーマンスデータセンターを必要としています。AI対応データセンターと従来のデータセンターを分ける要因を見ていきましょう。
データセンターはより高い電力密度に向けて進化している
AIの幅広い普及は、データセンターの電力密度上昇を牽引しています。電力密度とは、特定のスペースでどれだけの電力が使用されるかを示す指標です。GPUはユニット単位で従来のハードウェアよりも多くのエネルギーを消費するだけでなく、遅延を最小限に抑えるために密集して配置する必要があります。したがって、データセンター事業者はGPUをサポートするために、同じ物理ラックの設置面積内ではるかに多くの電力を使用します。
データセンターにおけるラックあたりの電力密度の上昇スピードは驚くべきものです。数年前までは、5〜10 kW/ラックが標準でした。現在では、100 kW/ラックという高い密度が一般的に見られます。この急速な変化は、冷却システムをはじめ、データセンター内の多くのインフラストラクチャ要素に影響を与えています。
液体冷却
この新しい100 kW/ラックのトレンドは、ますます高密度化する世代のGPU開発によってもたらされています。現在、各最大1.2 kWのGPUが登場しており、これは単一のプロセッサが従来のラック全体の約4分の1の密度を占めることを意味します。さらに、接続を確立し、より複雑なモデルを実行する能力を加速させるため、単一ラックの設置面積により多くのGPUが組み込まれています。単一のラックにこれほどの密度を詰め込むと、従来のラックよりもはるかに多くの熱が発生します。そのため、これらのラックにはより強力な冷却ソリューションが必要となります。ここで液冷が重要な役割を果たします。
液体は空気よりも熱の移動効率がはるかに高いため、水ベースのソリューションや冷媒を使用する新しい冷却方法は、従来の空冷方式よりもはるかに高い電力密度を可能にします。データセンターへの液冷の導入は、最先端のGPUワークロードをサポートし、AIを活用する新たなアプリケーションを実現する上で不可欠な要素となります。
しかし、液冷は企業が直面する密度の課題に対する万能薬ではなく、空冷を完全に置き換えるものではありません。今日、非常に高密度なラックでさえ、依然として空冷コンポーネントを含んでいます。企業はAIスタック内のさまざまなコンポーネントをサポートする必要があり、それらのコンポーネントはそれぞれ異なる冷却要件を持っているからです。
例えば、現在のGPUラックは大部分が液冷ですが、少割合で空冷も併用しています。前述の100 kW/ラックシステムでは、液冷と空冷の割合が80対20になる場合があります。このケースでは、空冷コンポーネントだけで20 kWの電力を消費することになります。これは、わずか数年前のラック全体が消費していた電力の数倍にあたります。一方、GPUコンピュートワークロードを補完するストレージやネットワークラックは、当面の間は依然として100%空冷です。組織は、高密度の空冷負荷を考慮しつつ、液冷をどのように統合するかを考える必要があります。
グローバルなコロケーションプロバイダとして、エクイニクスは液冷に対する需要の高まりを理解しており、液冷インフラストラクチャを念頭に置いてハイパフォーマンスデータセンターを設計しています。これにより、お客様は自社のオンプレミスデータセンター内では従来非常に困難であったAIハードウェアの導入を、容易に行うことができます。
エネルギーとサステナビリティ
AIによる電力と冷却の需要が増大する中、多くの企業リーダーは、サステナビリティ目標に向けて築き上げてきた進捗を無にすることなく、これらの電力密度の高いワークロードをどのようにサポートできるかを検討する必要があります。
まず着手すべきは、可能な限り施設の電力が再生可能エネルギー源によって賄われていることを確認することです。実際、これはエクイニクスがお客様の高密度ワークロードをサポートする上での最優先事項となっています。2024年、当社はグローバルデータセンターポートフォリオ全体で96%の再生可能エネルギーカバレッジを達成しました 。2030年までに100%のカバレッジという目標に向けて引き続き取り組んでいます。これを達成するため、新たな風力や太陽光プロジェクトを支援する電力購入契約(PPA)の締結など、多角的な再生可能エネルギー戦略を採用しています 。
また、2040年までにバリューチェーン全体で温室効果ガス排出量を実質ゼロにすることを目指し、Scope 1、2、および3の排出量を90%削減するという目標を設定しており、Science Based Targets initiative(SBTi)による認証を受けています 。この取り組みにより、エクイニクスのエコシステムとインフラストラクチャを活用するお客様は、自社のAIワークロードがサステナビリティへの取り組みを妨げるのではなく、それに合致していると確信を持っていただけます。
持続可能な実践への注力はそれだけにとどまりません。AI対応データセンターは、長期的なサステナビリティに影響を与える可能性のある運用効率の向上も優先すべきです。エクイニクスでは、データセンターポートフォリオ全体でASHRAE A1許容基準(A1A)を段階的に導入することでこれを追求しています 。この実践により、A1推奨範囲内で施設を稼働させ続けながら、その範囲内の標準よりもわずかに高い動作温度で運用することが可能になります 。長期的にはグローバルな事業拠点全体で運用エネルギーを大幅に節約できる可能性があります。
さらに、GPUワークロードは、液冷の固有の利点を活用することで、これらの効率化への取り組みを加速させることさえできます。熱伝導能力が向上しているため、液冷は空冷システムよりも高い温度を使用して電力密度の高いワークロードを冷却できます。施設内で液冷ワークロードの全体的な割合が増加するにつれて、より効率的な運用が可能になるでしょう。チップ温度の基準が高く維持される限り、AI技術は、施設からの排熱方法を含め、より効率的な運用実践を一般化させる可能性があります。
水資源
AI導入が水消費量に与える影響も、データセンターのサステナビリティにおける重要な側面です。AIワークロードはサーバー冷却に液冷を活用しますが、この技術が水消費量の大幅な増加を招くわけではありません。熱交換器または冷却水分配ユニット(CDU)に接続された閉ループ回路を使用しているためです。
しかし、熱はどこかへ逃がさなければなりません。CDUを通過した後、熱は建物レベルの冷却システムに伝達され、施設全体から熱を排除します。建物レベルでは、データセンター事業者は2つの冷却オプションから選択します。
- 蒸発冷却は、水蒸気の形でデータセンターから熱を放出します。
- 空冷(ドライクーリングとも呼ばれる)は、データセンターから熱風を放出します。
図1:建物レベルの冷却システム
蒸発冷却は空冷よりも水消費量が多くなりますが、消費エネルギーははるかに少なくなります。エクイニクスのようなグローバルなデータセンター事業者は、エネルギーと水消費量のトレードオフをケースバイケースで比較検討しなければなりません。例えば、地域社会でより多くの水を利用できるようにするため、水不足の地域では蒸発冷却の使用を避けています。
前述の通り、サーバーレベルでの液冷はより効率的であるため、AIワークロードの採用が増えることで、より高い温度での運用が可能になるかもしれません。これにより、蒸発冷却システムでの水消費の必要性が減り、より多くの市場でドライクーリングを使用する道が開かれる可能性があります。また、データセンターから発生する余剰熱を地域の暖房ネットワークや公共施設に供給する廃熱再利用プロジェクトへの参加機会も広がるでしょう 。
AI対応データセンターは相互接続されたデータセンターである
企業リーダーは、高いGPU容量を持つ大規模なコアデータセンターだけがAIの全てではないと認識し始めています。さまざまな目的で使用される多様なAI対応データセンターが存在します。分散型AIが標準となりつつあり、企業は多くの異なるソースからデータを取得し、エッジのユーザーに近い場所で推論をサポートする必要があります。また、AIを成功に導くために必要なデータ、モデル、インフラストラクチャを得るために、パートナーのエコシステムと接続する必要もあります。
これらすべての理由から、接続性はデータセンターをAI対応にするための不可欠な要素です。ハイパフォーマンスデータセンターは、エンドユーザーやデータソースが存在する可能性が高い人口密集地の近くに戦略的に配置されており、それによって推論ワークロードが要求する低遅延の接続を可能にします。さらに、これらのデータセンターは、エコシステムパートナーが集まり、互いに相互接続するデジタルハブとなっています。企業は、さまざまなAIワークロードをサポートするための適切な場所にデータセンターを配置することと、AIエコシステムパートナーに容易にアクセスすることのどちらかを選択する必要がありません。適切なコロケーションプロバイダは、これら両方のニーズを満たす手助けをします。
最後に、AI対応データセンターは、AIハードウェアの潜在能力を最大限に引き出して稼働させ続けるために、高度なネットワーク機能を提供する必要があります。例えば、GPUは遅延に非常に敏感であるため、ポイントツーポイントで接続されるように設計されています。これを実現するために必要な物理的な相互接続の帯域幅は天文学的な数字になります。専用の頭上または床下スペースを設けて設計された施設だけが、AIクラスターが要求する膨大な量のファイバーをサポートできます。
エクイニクスのIBX®コロケーションデータセンターは世界77の市場に展開しているため、必要な場所でAIインフラストラクチャを構築することができます 。また、エクイニクスには、確立されたクラウドプロバイダから新興のAIスペシャリストまで、10,000社以上のお客様が集まっています 。これほど多くの異なるサービスプロバイダと同じ環境にいることで、AI戦略に適したパートナーを容易に見つけ、相互接続して迅速かつ安全にデータを交換することができます。
エクイニクスは、GPUなどの高度なハードウェアがAIを前進させるエンジンであると考えています。ハイパフォーマンスデータセンターは、ハードウェアがその潜在能力を最大限に発揮できる機関室です。適切なハードウェアと、そのハードウェアをサポートする適切なデータセンターがなければ、AIは前進できません。
ハイパフォーマンスデータセンターがどのようにAIを前進させているかについてさらに詳しく知るには、ホワイトペーパー「高性能データセンター:スケーラブルなAIの原動力」をお読みください。
