热设计网

英特尔高级架构师探讨数据中心冷却的过去、现在和未来

热设计

英特尔高级架构师 Dror Shenkar 和 Zuta-Core 研发副总裁 Shahar Belkin 共同探讨数据中心冷却的过去、现在和未来。下一步是什么? 


image.png

(图片:Zutacore)


Dror Shenkar,英特尔数据中心管理解决方案高级架构师

回顾过去10到15年的数据中心环境,服务器机架的功率密度一直稳定在3到5千瓦。在此期间,使用冷水机组和机房空调(CRAC)的风冷数据中心足以克服服务器的散热问题,使数据中心设施及其屋顶下的CPU保持在最高温度以下。这是因为CPU产生的热量不超过130瓦。

数据中心采用架空地板系统,以热通道和冷通道作为主要的冷却方式。来自精密空调 (CRAC) 和计算机房空气处理器 (CRAH) 的冷空气被分配到架空地板下方的空间,然后通过穿孔地板砖进入服务器前方的主要空间。这种方法简单且多年来最为常见,尽管后来改进的冷却方法逐渐占据主导地位,但它至今仍在使用。

近年来,随着机架功率密度不断攀升至 10 kW 或更高,风冷配置发展成为冷热通道封闭布局,显著节省了能源。这些方法背后的理念是通过物理屏障将服务器的冷空气与服务器的热空气隔离,防止它们混合。另一种基于空气的冷却方法是机架内排热。这种方法通过机架内置的压缩机和冷却器来去除热空气。

2018年,机架密度持续增长,接近20 kW,并将风冷系统推向了其最大经济能力。随着机架密度持续增长,据估计,每机架密度已高达100 kW,直接芯片上液冷成为一种可行的解决方案。


Shahar Belkin,Zuta-Core 研发副总裁


数据中心正面临压力

人工智能 (AI)、游戏、高性能计算、3D 图形和物联网 (IoT) 都需要更快、更复杂的计算服务。快速增长的云服务业务、边缘计算的增长以及提供商之间的竞争,使得高效利用数据中心空间成为必要,并促使提供商要求每平方英尺配备更多的计算核心。图形处理器 (GPU) 和中央处理器 (CPU) 产生的热量越来越多,但其功耗却持续增长,从五年前的 100 瓦到 130 瓦以上,到过去两年投放市场的新型处理器的功耗达到 200 瓦到 600 瓦。事实上,IDC 报告称,尽管性能增长进一步推高了能源需求,但全球每台服务器的年能耗仍在增长 9%。

风冷配置能够很好地应对发热量高达 130 W 的处理器,在极限情况下甚至可以容纳 200 W 的处理器。超过 200 W 的处理器可以通过风冷来冷却,但需要更大的机箱尺寸,这不仅浪费机架空间,反而会浪费空间。直接片上液冷似乎是能够支持高功率处理器的解决方案,既能保持机箱尺寸小巧,又能保持高密度。

液体冷却最常见的两种冷却设计是直接到芯片的冷板或蒸发器和浸入式冷却。直接到芯片的冷板位于主板处理器的顶部以散热。冷板分为两大类:单相蒸发器和双相蒸发器。单相冷板主要使用冷水,冷水循环进入冷板吸收热量,离开服务器时变成温水/热水。对于双相蒸发器,安全的低压介电液体流入蒸发器,冷却组件产生的热量使液体沸腾,热量以蒸汽的形式从蒸发器释放出来。然后,以热水或蒸汽形式存在的热量被转移到散热装置,该装置使用冷冻水环路返回到冷却装置,或利用自由空气流动将热量释放到外界。

浸入式冷却需要将大量的介电流体浸入防漏槽中,并将整个硬件浸没其中。介电流体吸收热量,在某些情况下会变成蒸汽,冷却或凝结,然后以流体的形式返回冷却槽。

无论具体的冷却方法是风冷还是液冷,监控服务器温度都是冷却系统的关键部分。在所有这些情况下,都需要对服务器及其内部组件进行精细的温度监控,以确保服务器健康高效地运行。


数据中心冷却的未来就在眼前

不同公司推出了许多创新技术,有望改变数据中心冷却的格局,从使用海水或雨水减少宝贵的自然资源的使用,到利用人工智能分析数据中心的工作方式并实时调整冷却方式,再到可以监控机架中服务器温度和湿度的冷却机器人。

当负责监督高密度计算环境的数据中心经理获得必要的数据,以提高房间的整体设定温度时,此功能可以显著降低整个数据中心的年度冷却成本。

但当我们展望数据中心和冷却系统的未来时,这个未来就在眼前。传统数据中心的散热设计可能导致热点,而当今的高密度计算环境由于持续处理产生的热量,更是雪上加霜。如果数据中心管理人员无法了解设备的实际功耗,这可能会导致IT人员过度配置,导致能耗远远超出维持安全冷却裕度所需的水平。事实上,Gartner估计,由于每千瓦时(kwh)成本的上涨,持续电力成本每年至少上涨10%,尤其是在高功率密度服务器领域。

幸运的是,有一些数据中心管理解决方案可以改进数据驱动的决策,并通过提供功耗、热耗、服务器运行状况和利用率的可见性来实现更精确的运营控制。利用数据中心管理解决方案的冷却分析功能,IT 人员可以通过安全地提高房间温度来降低冷却成本,从而提高电源使用效率 (PUE) 和能源效率,同时持续监控硬件是否存在温度问题。

当负责监管高密度计算环境的数据中心经理获得必要的数据,从而能够提高房间的整体设定温度时,这项功能可以显著降低整个组织数据中心的年度制冷成本。举个例子,一家全球网络安全公司根据每台服务器的历史温度读数,将其服务器机房的温度提高了 3 °C,从而实现了全年制冷成本的25% 的总体节省。

如今,数据中心管理人员面临着多重全球性挑战。这些挑战包括保护快速增长的数据量和日益增多的关键任务应用程序、管理众多远程位置,以及实施日益紧迫的可持续发展计划,而这些计划与不断上涨的能源成本之间难以取得平衡。

为了解决这些及其他挑战,数据中心管理工具不仅提供高数据粒度的实时环境监控,而且这些软件解决方案还提供热数据的预测性分析,能够在温度问题引发严重事故之前发现它们。此外,监控和汇总实时功耗和热消耗数据有助于 IT 人员根据实际利用率分析和管理数据中心容量,从而尽可能高效地利用电力和冷却基础设施。

网站末尾图片.png

标签: 液冷、数据中心等 点击: 评论:

留言与评论(共有 0 条评论)
   
验证码: