从腾讯看数据中心在暖通行业的发展趋势及液冷技术的应用
发表于: 来自:CDCC
腾讯数据中心首席架构师林志勇在第4届中国数据中心绿色能源大会上发表《数据中心暖通架构发展趋势及未来液冷技术的思考》主题演讲,就暖通架构方面,分享了数据中心规模以及服务对象两个关键因素带来的影响,并对暖通技术的部件、产品、和系统三个技术发展的层面进行了详细的剖析。其中对于腾讯暖通技术演化的路径和间接蒸发冷空调的最佳实践以实例进行了梳理和展示。
ONE、最好的数据中心暖通架构是什么?
回答这个问题,可以先看看数据中心的两个关键点:
01、数据中心的规模
数据中心作为服务器的承载体,其规模与业务规模密切相关。它可以是存储间内的几台机器,也可以是办公大楼内的几十个机架,甚至可以是专门的大楼。数据中心可以位于华南或华北,也可以位于中国其他地区,也可以位于其他国家。规模的大小和地理位置的不同气候条件,决定了数据中心的暖通架构需要作出不同的选择。
02、数据中心的服务对象多样
当前,服务器主要分为几种类型,包括通用计算型、GPU机型、存储和交换机。不同类型的服务器对环境的要求也各不相同。例如,磁带存储类型对温度、湿度、清洁度和变化速度非常敏感,其负载波动特性也有很大差异,因此需要选择特殊的暖通系统以满足其需求。因此,并不存在一种最佳的暖通架构,只有最适合的暖通架构。适合的暖通架构需要综合考虑需求,并平衡供给端、成本、业务交付时间、运维等方面的因素。
行业内,暖通技术的发展可以通过部件,产品,和系统三个层面来考虑:
01、部件层面
近年来我们看到在数据中心领域引入了一系列创新的部件技术,如变频压缩机、气悬浮和磁悬浮技术、EC风机、空空换热芯(用于空气对空气的热交换)、电子膨胀阀和氟泵等。这些部件技术的创新推动了整个数据中心暖通产品的更新迭代。
02、产品层面
为了适应不同应用场景的需求,我们看到市场上涌现出了一系列产品,如房间级空调、列间空调、冷冻水机组、冷却装置单元(CDU)、空气处理单元(AHU)等。所有这些产品的出现适应不同的应用场景需求。
03、系统层面
如今更多的暖通架构和建筑协同设计,采用集中式暖通架构,还是采用分布式暖通架构,有不同的气流组织架构,有不同的管网设计,控制系统也从单机,到多级群控,到平台监控。
可以说,在过去几年中,围绕部件、产品和系统这三个维度,数据中心的暖通技术不断向前推进,不断创新。
在腾讯数据中心的多年发展历程中,我们积极探索和试点不同的暖通技术,目前主要专注于两个技术方向:
01、是以城市多层库为主的集中式冷冻水方案
这种方案将数据中心的冷却需求集中在一个中央冷却系统中,通过冷冻水来传递和分发冷量。这种集中式方案可以实现远距离的热传输和冷却效果,并具备较好的可控性。
02、依托腾讯T-block而引入的分布式AHU架构
这种架构下的分布式空气处理单元(AHU)包括了间接蒸发AHU和氟泵AHU。采用分布式的AHU架构,在质量、效率、成本上相对比于传统的集中式冷冻水都有较大的改进。
自2018年起,腾讯陆续建设了以T-block为代表的自有园区。在这些园区中,我们引入了间接蒸发AHU产品,并吸引了许多行业内的伙伴参与到我们的项目中。经过几年的积累和实践,目前我们在华南地区实现了年均PUE值最低可达到1.21,在华北地区实现了年均PUE值最低可达到1.18。
未来,随着芯片功率密度的增加,传统的风冷散热已经接近极限,芯片级液冷散热已经不再是可忽视的问题。因此,在未来的暖通架构中,我们将关注如何支持液冷散热的需求。
TWO、这几年行业内的几种新的暖通技术产品渐渐成熟,未来我们还能做些什么?
在讨论未来要做什么之前,我们有必要了解一下数据中心在暖通领域仍面临着哪些挑战:
首先,暖通服务对象的挑战。IT设备的生命周期相对较短,一般是5年或者更少,而暖通系统的生命周期为10年甚至更长。因此,暖通系统的设计需要考虑如何满足未来IT设备的需求,包括风冷、液冷或者风液混合场景的需求,这是一个挑战。
第二,存量土建设置的挑战。由于土建建设和业务需求的时间不匹配,暖通架构需要考虑已建好土建的限制,并同时兼顾未来服务器和业务的需求,因此需要进行特殊的设计和考虑。
第三,项目建设计划的波动。经济环境的变化可能对项目规划产生影响。在项目规划变化的情况下,可能需要调整已有的建设下发订单产品的使用场所,因此暖通产品需要具备兼容性,最大程度上减少变更,满足项目调拨的需求。
第四,极端气候变化的挑战。极端高温天气的出现对暖通系统产生重大影响。随着气候变化,可能会面临更多极端高温场景。这会降低制冷量、增加功耗,对整个数据中心的运行安全产生影响。因此,在暖通设计时,需要更多关注如何兼容未来可能的极端气候变化。
第五,数据中心能效政策的挑战。全国范围内对数据中心的基本要求是PUE小于1.3,有些地方要求更严格,如1.25甚至1.15。如何保证成本不增加或者增加有限的情况下去满足能效的要求,是一个较大的挑战,需要进行充分考虑。
第六,水资源规划的挑战。水资源规划将变得越来越重要,尤其是在数据中心集群出现时。南方相对来说水资源较丰富,但北方水资源匮乏,特别是当数据中心集群建设超出当地水资源供应能力时。因此,在新建数据中心或运营过程中可能会面临无水或缺水的情况,而在这种情况下,暖通系统必须能够正常运行。因此,在选择暖通架构时必须充分考虑水资源的情况。
在应对这些挑战的过程中,我们未来需要从四个主要方面进行考虑和努力:
01、加强协同设计
这包括与服务器端的紧密合作,将数据中心的暖通系统设计与服务器的散热设计、业务部署特点和业务调度特性更紧密地结合起来,以实现更优秀的暖通系统设计。
其次是加强数据中心内部的协同设计。在选址、能源评估、建设形式、气流组织等方面,我们需要进行更多的合作,并进行前瞻性地考虑。例如,在选址阶段,周围可能没有工厂,空气质量是可接受的,但在运营过程中,可能会发现在数据中心周边出现预计之外的化工厂,导致空气质量下降。因此,在数据中心的整个生命周期中,如何解决这种问题,需要暖通系统设计时进行更多的协同考虑。
最后是加大运营设计的比重。过去,我们更多关注的是物理层面上的运营设计,如维护空间、维护平台等。未来,我们需要更多关注暖通系统的数字化运营设计。这意味着通过数字手段来支持现场的自动化和智能化运营。
02、质量
它将成为大型数据中心的关键工作之一。近年来,我们不断看到由于暖通系统故障导致的宕机问题,这给数据中心带来了巨大的经济损失。随着数字经济的快速发展,暖通系统的可靠性变得更加重要。
我们可以观察到,从集中式暖通系统向分布式暖通系统的转变是在系统设计层面上降低风险的举措。然而,在这几年快速建设的过程中,也存在一些问题。例如,对于新引入和定制化产品,缺乏完整有效的质量控制机制。在技术规范方面,缺乏充分的质量量化设计;在测试方案方面,缺乏成熟的标准和方法制定;在工艺方面,缺乏全面的风险评估。因此,在未来一段时间内,行业可能需要进一步加大力度,以确立技术要求、规范质量评估,并提升工艺水平。
03、搭建多方参与的多体系信息平台
该平台不应该将各方割裂独立,而是将技术、产品、建设和运营等多方的信息流融合起来,实现多维度的暖通系统平台构建。
例如,在项目建设过程中,我们是否能够自动汇总和跟踪物流状态和建设进度?是否能够自动收集产品实验测试数据、第三方测试数据和现场数据,并生成分析对比报告?是否能够快速建立备件信息库,并进行智能库存管理和自动变更管理?我们是否能够建立产品和部件的健康度模型,并进行及时地预测,并启动自动的修复流程?同时,产品研发端是否能够快速生成现场数据分析报告,并进行产品的迭代升级?
在当今经济大环境下,我们经常听到“降本增效”的口号,而降低成本的真正有效手段是提高效率。可以想象,一旦我们打通各方的信息流,让信息智能流通,我们的沟通成本和人力成本将大大降低。
04、液冷技术
在决定是否采用液冷技术时,我们需要考虑一些因素。以往,很多的液冷项目主要是起到能效示范作用,但随着芯片功率密度的提高和人工智能应用的增加,传统的风冷散热能力将达到极限。因此,液冷逐渐成为一项必要需求。
在行业内,人们对液冷技术进行了广泛讨论,主要涉及两种技术:浸没式和冷板式。这两种技术各有优缺点,选择适合的技术需要考虑多个方面。
首先,我们应该考虑该技术的生态圈是否成熟,供应链体系是否能够满足规模化使用,以及成本是否合理。其次,我们需要考虑技术的运维是否具有延续性和便利性。此外,我们还需要考虑兼容性。传统老旧机房是否能够支持液冷服务器?新建的液冷机房是否能够与老旧的风冷服务器兼容?通过充分考虑这些因素,每个用户可以根据自身实际情况选择最适合的技术方案。对于腾讯来说,由于拥有大量的风冷服务器和风冷机房,从部署和运维兼容性的角度来看,冷板式液冷技术是一个比较匹配的选择。
如果我们选择冷板液冷技术,那么液冷和风冷的功率占比就变得非常重要。我们都知道,冷板只解决了芯片的散热问题,而其他组件,如主板、内存、硬盘和网卡,仍然需要通过风冷方式进行散热。因此,对于一台服务器而言,液冷和风冷所占总功率的比例至关重要。不同类型的服务器具有不同的比例,例如,大数据存储服务器的液冷比例约为45%,而GPU训练服务器的液冷比例可高达85%。
对于一个机房来说,在建设初期很难准确预测业务在其生命周期内的具体部署情况。是全部采用GPU训练型服务器?还是大数据存储型服务器?或者两者混合?因此,我们的机房需要具备一定的弹性,以满足现场的部署需求。
在行业中已经存在一些采用液冷架构方案的案例,其中风冷和液冷共用设施冷源。这种架构能够支持100%的风冷模式。在风冷侧,采用了30°C供水的空气处理单元(AHU),这样机房冷通道的温度大约在35°C左右。可以完全依靠自然冷却来实现风冷和液冷的效果。
然而,在国内的大多数场景中,我们仍需要保持低于27°C的冷通道送风温度,因此无法完全依靠自然冷却来实现散热。因此,架构也会有一些不同之处。
结合腾讯的使用场景,腾讯的冷板液冷架构需要考虑以下几个方面:
首先,一级冷源端应该是共享的,能够提供100%的制冷能力,并具备相应的冗余度,以确保系统的稳定性和可靠性。
其次,二级冷源端的运行应根据室外环境温度进行梯度调整。在高温环境下,液冷和风冷应独立供冷,风冷可以采用机械制冷方式。而在中温区间,风冷可以通过机械补冷的方式实现部分自然冷却。而在低温区域,液冷和风冷可以合并为一套系统来供冷。
此外,该架构应尽可能采用集成预制的方式,以简化现场布管和控制调试的过程。同时,应采用小颗粒度的模块化设计,支持小规模的分期建设,以降低系统性风险。下方的图示为我们最终的架构模型,其中集成预制的产品被称为一体化冷源。
采用一体化冷源后,现场可以采用类似分布式空气处理单元(AHU)的部署方式。图中展示了T-block的可能部署示意图。我们还建立了PUE与室外湿球温度的预测模型,采用一体化冷源可以实现较高的能效水平。当然,液冷技术仍处于初期应用阶段,仍存在许多未知的运行场景,需要在实际运行中不断改进架构和产品方案。
暖通技术已有一百多年的发展历史,当暖通技术与数据中心相结合,在数字经济的高速路上行驶时,我们看到了新的机遇和挑战。新的需求、新的方向,更需要整个行业共同努力,协同共建。