英特爾高級架構師 Dror Shenkar 和 Zuta-Core 研發副總裁 Shahar Belkin 共同探討數據中心冷卻的過去、現在和未來。下一步是什么?
(圖片:Zutacore)
Dror Shenkar,英特爾數據中心管理解決方案高級架構師 回顧過去10到15年的數據中心環境,服務器機架的功率密度一直穩定在3到5千瓦。在此期間,使用冷水機組和機房空調(CRAC)的風冷數據中心足以克服服務器的散熱問題,使數據中心設施及其屋頂下的CPU保持在最高溫度以下。這是因為CPU產生的熱量不超過130瓦。 數據中心采用架空地板系統,以熱通道和冷通道作為主要的冷卻方式。來自精密空調 (CRAC) 和計算機房空氣處理器 (CRAH) 的冷空氣被分配到架空地板下方的空間,然后通過穿孔地板磚進入服務器前方的主要空間。這種方法簡單且多年來最為常見,盡管后來改進的冷卻方法逐漸占據主導地位,但它至今仍在使用。 近年來,隨著機架功率密度不斷攀升至 10 kW 或更高,風冷配置發展成為冷熱通道封閉布局,顯著節省了能源。這些方法背后的理念是通過物理屏障將服務器的冷空氣與服務器的熱空氣隔離,防止它們混合。另一種基于空氣的冷卻方法是機架內排熱。這種方法通過機架內置的壓縮機和冷卻器來去除熱空氣。 2018年,機架密度持續增長,接近20 kW,并將風冷系統推向了其最大經濟能力。隨著機架密度持續增長,據估計,每機架密度已高達100 kW,直接芯片上液冷成為一種可行的解決方案。
Shahar Belkin,Zuta-Core 研發副總裁
數據中心正面臨壓力 人工智能 (AI)、游戲、高性能計算、3D 圖形和物聯網 (IoT) 都需要更快、更復雜的計算服務。快速增長的云服務業務、邊緣計算的增長以及提供商之間的競爭,使得高效利用數據中心空間成為必要,并促使提供商要求每平方英尺配備更多的計算核心。圖形處理器 (GPU) 和中央處理器 (CPU) 產生的熱量越來越多,但其功耗卻持續增長,從五年前的 100 瓦到 130 瓦以上,到過去兩年投放市場的新型處理器的功耗達到 200 瓦到 600 瓦。事實上,IDC 報告稱,盡管性能增長進一步推高了能源需求,但全球每臺服務器的年能耗仍在增長 9%。 風冷配置能夠很好地應對發熱量高達 130 W 的處理器,在極限情況下甚至可以容納 200 W 的處理器。超過 200 W 的處理器可以通過風冷來冷卻,但需要更大的機箱尺寸,這不僅浪費機架空間,反而會浪費空間。直接片上液冷似乎是能夠支持高功率處理器的解決方案,既能保持機箱尺寸小巧,又能保持高密度。 液體冷卻最常見的兩種冷卻設計是直接到芯片的冷板或蒸發器和浸入式冷卻。直接到芯片的冷板位于主板處理器的頂部以散熱。冷板分為兩大類:單相蒸發器和雙相蒸發器。單相冷板主要使用冷水,冷水循環進入冷板吸收熱量,離開服務器時變成溫水/熱水。對于雙相蒸發器,安全的低壓介電液體流入蒸發器,冷卻組件產生的熱量使液體沸騰,熱量以蒸汽的形式從蒸發器釋放出來。然后,以熱水或蒸汽形式存在的熱量被轉移到散熱裝置,該裝置使用冷凍水環路返回到冷卻裝置,或利用自由空氣流動將熱量釋放到外界。 浸入式冷卻需要將大量的介電流體浸入防漏槽中,并將整個硬件浸沒其中。介電流體吸收熱量,在某些情況下會變成蒸汽,冷卻或凝結,然后以流體的形式返回冷卻槽。 無論具體的冷卻方法是風冷還是液冷,監控服務器溫度都是冷卻系統的關鍵部分。在所有這些情況下,都需要對服務器及其內部組件進行精細的溫度監控,以確保服務器健康高效地運行。
數據中心冷卻的未來就在眼前 不同公司推出了許多創新技術,有望改變數據中心冷卻的格局,從使用海水或雨水減少寶貴的自然資源的使用,到利用人工智能分析數據中心的工作方式并實時調整冷卻方式,再到可以監控機架中服務器溫度和濕度的冷卻機器人。 當負責監督高密度計算環境的數據中心經理獲得必要的數據,以提高房間的整體設定溫度時,此功能可以顯著降低整個數據中心的年度冷卻成本。 但當我們展望數據中心和冷卻系統的未來時,這個未來就在眼前。傳統數據中心的散熱設計可能導致熱點,而當今的高密度計算環境由于持續處理產生的熱量,更是雪上加霜。如果數據中心管理人員無法了解設備的實際功耗,這可能會導致IT人員過度配置,導致能耗遠遠超出維持安全冷卻裕度所需的水平。事實上,Gartner估計,由于每千瓦時(kwh)成本的上漲,持續電力成本每年至少上漲10%,尤其是在高功率密度服務器領域。 幸運的是,有一些數據中心管理解決方案可以改進數據驅動的決策,并通過提供功耗、熱耗、服務器運行狀況和利用率的可見性來實現更精確的運營控制。利用數據中心管理解決方案的冷卻分析功能,IT 人員可以通過安全地提高房間溫度來降低冷卻成本,從而提高電源使用效率 (PUE) 和能源效率,同時持續監控硬件是否存在溫度問題。 當負責監管高密度計算環境的數據中心經理獲得必要的數據,從而能夠提高房間的整體設定溫度時,這項功能可以顯著降低整個組織數據中心的年度制冷成本。舉個例子,一家全球網絡安全公司根據每臺服務器的歷史溫度讀數,將其服務器機房的溫度提高了 3 °C,從而實現了全年制冷成本的25% 的總體節省。 如今,數據中心管理人員面臨著多重全球性挑戰。這些挑戰包括保護快速增長的數據量和日益增多的關鍵任務應用程序、管理眾多遠程位置,以及實施日益緊迫的可持續發展計劃,而這些計劃與不斷上漲的能源成本之間難以取得平衡。 為了解決這些及其他挑戰,數據中心管理工具不僅提供高數據粒度的實時環境監控,而且這些軟件解決方案還提供熱數據的預測性分析,能夠在溫度問題引發嚴重事故之前發現它們。此外,監控和匯總實時功耗和熱消耗數據有助于 IT 人員根據實際利用率分析和管理數據中心容量,從而盡可能高效地利用電力和冷卻基礎設施。

標簽: 液冷、數據中心等 點擊: 評論: