芯片级液冷技术新进展！美国能源部全力支持

DeepKnowledge 发表于：2024-06-24 10:12:24 来自：暖通家

　　AIDC时代，算力基础设施对能源的渴望会愈发迫切，算力芯片的散热会逐步从风冷转向液冷。GB200 NVL72的面世，无疑会加速业界液冷生态的日趋完善。

　　常规的液冷技术有冷板式、浸没式以及喷淋式，但JetCool另辟蹊径，将微型射流阵列喷射在芯片表面进行冷却散热，与常规冷板式液冷将循环液体流借助水冷板经芯片表面散热存在一定差异，散热能力和被冷却表面温度均匀性有显著提升。

　　JetCool的液冷解决方案将借助COOLERCHIPS项目，论证服务器环境温度的提升带来的收益是否会被硅基材泄漏电流的增加而导致效率下降所平抑，结果如何，让我们拭目以待。

　　JetCool首席执行官讲述如何将数以千计的微型射流引入数据中心

　　随着芯片温度和机柜密度的提升，海量公司纷纷提出其对液冷的未来愿景。

　　人工智能和其他高密度工作负载的冷却需求已经超出了空气冷却系统的散热能力，因此需要某种形式的液体冷却。

　　“当你思考液冷的前景时，我们会看到三种不同的技术类别，”JetCool 首席执行官Bernie Malouin 解释道。

　　“第一类是单相浸入式液冷，将芯片置入油类工质中散热。这很有趣，但对芯片功耗有一些限制—很长一段时间以来，功耗被限制在400W。有人正在努力改善这一点，但还没有达到需要的程度。”

　　第二类是两相介电工质：“这可以解决更高热设计功耗(TDP)处理器散热问题，可达到900—1000W。从技术上，它更适合未来的计算硬件散热，但会受到一些化学品方面的制约。”

　　许多的两相液冷解决方案使用全氟烷基物质(PFAS)，也称为永久化学品，它有可能影响人类健康，故在美国和欧洲面临限制。ZutaCore等公司已承诺到2026年转向其他解决方案，实际上这一举措进展缓慢。

　　Malouin 说：“许多客户所关心诸如此类的问题，因为担心这类液体工质的安全性，故而向JetCool寻求解决办法”。“客户担心这类液体工质的供应可持续性。”

　　然后是第三类：直接冷板式液冷（DLC，Direct Liquid Cooling）。我们是其中之一公司，也有其他一些公司在做类似产品。

　　DLC冷板是比较传统的IT设备液冷形式之一，只需将冷态工质输送到直接安装在最热组件上的金属板上即可。长期以来，一直被高性能计算使用，但JetCool认为这个概念应该与时俱进。

　　其冷却喷嘴不是让流体流经表面，而是直接将流体工质输送至芯片表面。“JetCool直接与主要芯片制造商合作，如英特尔、AMD、Nvidia 等，将由一千个微型流体喷射器组成的阵列，通过智能地布置分配，给特定处理器上的热源散热。”

　　Malouin 表示，“微型对流冷却方法并不是将整个芯片视为一个具有单一冷却要求的整体，而是尝试平衡不同的热负荷以及芯片堆栈特定部分的不同散热要求”。

　　“当您开始考虑真正集成的封装时，芯片核心或许能够运行在更高的温度，但随后您可能会配置高带宽内存(HBM) 部分，这些部分虽然功耗不高，但温度限制较低。”

　　每个组件部分可实现差异化的冷却速度，而不是尝试针对高功率核心和温度敏感的HBM进行设计。“这让你能够将这些部分分开，并在需要的地方进行精确冷却，”Malouin 说。

　　虽然Malouin认为设施级液体冷却是数据中心的未来，但该公司还与戴尔合作，为那些希望尝试更低温的客户提供了一个独立的系统，这个系统专注于双插槽部署。

　　两个小型泵模块提供流动循环，空气热交换器在智能板系统的另一端排出热量。

　　“当我们添加这些泵时，会增加一些电力消耗，但不需要风扇在较高的转速下运行，因此可以使噪音降低15-20分贝。在关掉泵时，每台服务器会消耗大约 100 瓦的功率。” Malouin 声称。

　　当涉及10个或更多的机架时，设施层面液冷就更有意义了。当被问及首选进口温度时，Malouin表示该系统很灵活，但补充道，“我们实际上非常喜欢温和的流体温度。”

　　他说：“当前的设施为我们提供 60°C (140°F) 及以上的进口冷却温度。而且我们仍在满负荷的情况下冷却这些设备。”这种情况目前还不常见，但Malouin相信，由于热能再利用的潜力，温暖的海水将在欧洲等地越来越受欢迎。

　　在美国，JetCool是能源部 COOLERCHIPS 项目的一部分，该项目旨在大幅改进数据中心冷却系统。

　　JetCool获得100万美元以上奖项的重点不仅在于冷却潜力，还在于诱人的次要优势：“我们已经让硅芯片本质上提高了8%到10%的电效率，”Malouin 声称。

　　“这与冷却系统的用电量无关，而是与泄漏量有关。”

　　Malouin 并不是指冷却系统的泄漏，而是指半导体泄漏电流的量子现象，它会严重影响芯片的性能。

　　数据中心冷却的最新记录倾向于认为，允许温度升高会节省能源，因为冷却中使用的能源较少。

　　结果，瑞典研究机构RISE乔恩·萨默斯 (Jon Summers) 的研究发现，硅中的漏电流限制了运行温度较高的收益。

　　“我们COOLERCHIPS项目努力的一个重要部分是通过更严格的科学证据来证实这一点，并将其推断到不同的环境中，看看它在哪里存在或不存在哪里。”

　　展望更远的未来，Malouin看到了更深入研究硅的机会。“在某些情况下，它实际上可能作为嵌入层集成在硅中，然后将其耦合到外部进行一些热再利用的系统。当我们从整体上考虑这一点时，我们认为数据中心效率确实有机会发生重大变化。”

　　该公司表示，目前它能够支持Nvidia GPU 最高900W负载，并且目前正在冷却使用1,500W功率的未公开的“定制”芯片。“最终，如果想在未来和现在都运行生成式人工智能，就必须考虑液体冷却。”