AIサーバーに求められる冷却技術の進化！「空冷」から「液冷」へトレンドが移行する理由

Aug 23, 2024

伝言を残す

NVIDIA CEOのジェンスン・フアン氏は、COMPUTEX 2023に特別出演し、Supermicro会長のチャールズ・リアン氏のスピーチをサポートした。ファナー会長のリン・ユーシェン氏は、ステージに展示されたサーバー製品のほとんどにファナーの水冷モジュールが搭載されていると指摘した。長年にわたり水冷モジュールに投資してきたファナーは、このAIの波に乗るのに有利な立場にある。しかし、AIサーバーがますます高い冷却基準を要求する中、なぜ「空冷」から「液冷」へとトレンドが移行しているのだろうか？

I 高速動作から液体冷却まで

冷却技術に関して、リン・ユーシェン氏は、現在の冷却モジュールは主にヒートパイプを組み込んだハイブリッド冷却技術を採用していると指摘した。これらのヒートパイプ冷却モジュールは、ファン、ヒートシンク、ヒートパイプなどのコンポーネントを組み合わせて、内部の電子部品にバランスの取れた熱環境を作り出し、電子デバイスの安定性を高めている。しかし、下流の端末電子製品がより多機能でコンパクトになるにつれて、冷却モジュールメーカーは、ベイパーチャンバーとヒートパイプを中心とした冷却ソリューションの設計に移行している。

現在、冷却モジュールは「空冷」と「液冷」の2種類に分けられます。空冷は空気を媒体として、熱伝導材料、ベイパーチャンバー（VC）、ヒートパイプなどの材料で熱を伝導し、空気対流によってヒートシンクやファンから放散します。一方、液冷は液浸冷却などの液体対流によって熱を放散し、チップをより効率的に冷却します。しかし、チップの発熱量が増加して小型化し、熱設計電力（TDP）が増加するにつれて、空冷だけでは徐々に不十分になってきています。

A comparison between air cooling and liquid cooling technologies

▲ 空冷と液冷技術の比較

ChatGPT の台頭により、生成 AI によってサーバーの出荷数が増加し、その結果、冷却モジュールの仕様がアップグレードされ、サーバーの冷却と安定性に関する厳しい要件を満たすために液体冷却ソリューションへと移行しました。Lin Yushen 氏は、Fanner が空冷技術からスタートし、10 年前には IBM の技術移転を通じて液体冷却技術の取得を開始したことを強調しました。同社は、既存のデータセンターインフラストラクチャを変更することなく、クライアントがキャビネットに水冷を追加できるようにする水冷バックドアを提供しました。

II 2025年までに、空冷と液冷の同時冷却の新時代が到来

AIアプリケーションに関連する半導体技術の発展に牽引され、ChatGPTにGPT-3が導入されたことで、AIアルゴリズムパラメータが1,750億に増加し、GPUコンピューティングパワーを100倍に増やす必要が生じました。業界では、高密度サーバーやコンポーネントの放熱の課題を解決するために、主に液体冷却内の単相浸漬冷却技術を使用しています。ただし、この方法には600Wの制限があり、ChatGPTまたはより高度なサーバーの冷却ニーズは700Wを超えています。

Illustration of single-phase immersion cooling technology

▲単相浸漬冷却技術の図解

IoT、エッジコンピューティング、5Gアプリケーションの発展により、データAIは世界のコンピューティングパワーを急成長段階へと押し上げています。次世代の冷却モジュール設計は、既存の冷却モジュールを3Dベイパーチャンバー（3DVC）にアップグレードするか、液体を熱対流媒体として使用して冷却効率を向上させる液体冷却システムを導入するという2つの主な方向性に従います。その結果、2023年には液体冷却テストの数が大幅に増加しました。ただし、3DVCは最終的には過渡的なソリューションであり、2024-2025までに空冷と液体冷却の同時実行の時代が始まると予想されています。

TrendForceによると、2022年にはGPGPU（汎用GPU）を搭載したAIサーバーの出荷台数は全体の約1％を占めていました。しかし、ChatGPTの応用により、2023年にはAIサーバーの出荷台数は38.4％増加し、2022年から2026年までのAIサーバーの出荷台数の年平均成長率は29％に達すると予想されています。

Ⅲ AIチップは「液体冷却」が主流になる

新世代サーバーのTDPが空冷の限界に近づくにつれ、大手テクノロジー企業は液冷をテストしたり、冷却スペースを増やしたりし始めています。たとえば、IntelのEagle StreamやAMDのGenoaのTDPは350-400Wで空冷の限界に達しており、液冷がAIチップの主流のソリューションとなっています。NVIDIAのH100のTDPは700Wで、3DVCを使用した空冷には通常4U以上のスペースが必要であり、高密度展開アーキテクチャには適していません。

NVIDIA's H100

▲ NVIDIAのH100

データセンターでは冷却システムが総エネルギー消費量の約 33% を占めていることから、総電力消費量を削減し、電力使用効率 (PUE) を向上させるには、冷却システム、IT 機器の最適化、再生可能エネルギーの使用が不可欠です。水の熱容量は空気の 4 倍であるため、液体冷却システムを実装するには、液体冷却プレート用のスペースが 1U あれば十分です。NVIDIA のテストによると、同じコンピューティング能力を実現するために、液体冷却では必要なキャビネット数が 66%、エネルギー消費量が 28%、PUE が 1.6 から 1.15 に削減され、コンピューティング性能も向上します。

IV Supermicroのファンナー冷却モジュールの使用は重要

液体冷却はさらに「水冷」と「油冷」に分けられ、現在最も広く使われているのは水冷です。林宇神氏は、現在、ほぼすべてのAIサーバーが水冷ソリューションを使用していると指摘しました。例えば、TDPが700Wを超えるNVIDIAのGH100は、水冷を使用する必要があります。現在、水冷はFannerの収益のわずかな割合を占めていますが、AIサーバーの平均販売価格（ASP）は従来のサーバーの10倍高く、これは今年後半のFannerの製品構造の変革に役立ちます。2023年にはAIサーバーがビジネスの5-10％を占める可能性があると推定されています。

リン・ユーシェンは、Supermicro が NVIDIA GH100 GPU を搭載したサーバーに Fanner の水冷モジュールを採用する主な理由は、Fanner が 10 年以上にわたって液体冷却ソリューションに取り組んできたためだと強調しました。水冷の実装における課題は主にコストと漏れ防止ですが、Fanner の 10 年以上にわたる研究により、これらの漏れの問題は徐々に克服されてきました。Fanner の水冷モジュールへの長期的な投資により、同社はこの AI の波を活用できる立場にいます。

Supermicro Custom Liquid Cooling

▲ Supermicroカスタム液体冷却

リン・ユーシェンは、高速コンピューティングによるTDPの継続的な増加とAIサーバーの冷却需要の高まりにより、従来のヒートパイプ冷却が限界に達し、水冷モジュールの採用が必要になったと強調した。ファナーにはすでに、スーパーマイクロやメタなど、同社のソリューションを採用している顧客が数社ある。水冷の採用は予想よりも早いものの、2023年に完全に実装される可能性は低い。しかし、2024年までには大きな進歩が見込まれ、2025年には爆発的な成長が見込まれる。