首页 > 企业站 > 企业站_资讯眼> 正文

为何液冷存储成为绿色数据中心新焦点?

Asgardia 编辑: 王珂玥 发布于:2023-12-11 17:37 PConline原创

随着针对数据中心能源使用效率政策的不断趋严,数据中心建设也越发注重整体资源利用的改善。液冷技术作为一种高效、节能环保的解决方案,有助于实现数据中心的绿色低碳发展。由于存储设备在数据中心IT基础设施能耗中占比即将超过35%,比例仅次于服务器能耗,发展液冷存储势必成为绿色数据中心破局关键点。曙光存储作为国内业界唯一拥有液冷存储成功部署经验的厂商,已于今年在华南理工大学落地了国内首个液冷存储系统,帮助华南理工大学基本实现了全栈式液冷数据中心的建设。

对此,太平洋科技近期探访了华南理工大学数据中心,探寻液冷技术扩展到存储系统上的可行性及对于数据中心具有的重要意义。同时,随着数据中心能源效率、业务模型多样性、安全性能的提升,并进一步响应绿色低碳发展趋势,中科曙光具备覆盖数据中心建设全生命周期的产品和服务能力,实现液冷数据中心端到端交付的实施经验,也会对更多行业的液冷应用,提供有价值的借鉴意义。

从硬盘里的国家战略谈起

由于业界对脱碳研究的日益深入,人们越来越关注对清洁能源技术的运用,如电动汽车和风力涡轮机。这些技术都依赖于强大的稀土永磁体,如钕铁硼永磁体。钕铁硼磁铁已是当今业界公认的最强大、最先进的商业化永磁体。在钕铁硼磁体中,钕(Nd)的比例可能占稀土成份的90%以上。在其应用中,钕铁硼磁体对于计算机中用于数据存储的硬盘驱动器则至关重要。根据一份2007年的公开数据,全球使用的计算机占了所有钕铁硼磁体使用量的近三分之一。业界认为,即使这些份额在今天可能发生了变化,但毫无疑问,来自硬盘驱动器的钕铁硼磁铁尚未失去其在用库存和回收潜力的相关性。

001

虽说磁盘盘片的主要成分是铝,但对磁盘需要的用磁量,因与各个硬盘供应商在构造细节和设计工程的差异而表现各异,所以难确定磁盘中存在的稀土永磁体的确切含量与组成。但业界认为,总体来看,硬盘中钕的表面消耗量似乎并没有减少。例如,作用于驱动臂动力的音圈电机就是一种永磁直线电机,也是硬盘成为电子垃圾后最理想的稀土资源回收部分。即使硬盘驱动器正在被固态驱动器所取代,但云服务的增长也带动对硬盘使用量的需求。根据研究机构Trendfocus的统计数字显示,2020年机械硬盘的总出货量为2.59亿块,其中企业级占比高达63.9%。业界认为,彼消此长,这可能会平衡对钕的需求。

根据美国地质勘探局的数据,2022 年全球稀土资源总储量约为1.3 亿吨,稀土矿产量为30 万吨,其中中国储量为4400 万吨(占比35.01%),产量为21 万吨(占比70%),储量和产量均为全球第一位。另外,根据美国能源部的数据显示中国在分离、冶炼和磁铁合金制造环节均处于领先水平,在全球市占率约90%,处于龙头地位。稀土资源供需分布的极大不平衡性,导致其全球战略属性一致持续提升。在2023年11月初的一次国务院常务会议上,会议再次指出,稀土是我国战略性矿产资源,应着力推动稀土产业高端化、智能化、绿色化发展。

欧盟委员会已将稀土元素列为关键原材料,在0-1的范围内,其替代指数高于0.9.如此高的指数强调了金属替代的难度,并揭示了通过可持续回收过程开发这些元素回收途径的紧迫性。在今年欧盟出具的一份确保关键原材料安全和可持续供应的框架提议中,预计到2050年,欧盟对稀土元素的需求将增长6至7倍,而未来对稀土的需求增长预计将超过产能增长。根据国际能源署的净零排放设想,到2030年,全球对镍、钴、锂、铜和钕这五种关键矿物的需求将增长1.5至7倍。

业界研究显示,硬盘回收的钕精矿的钕含量比钕矿石更丰富,因此,钕的回收利用不仅从生态和经济角度来看是积极的,而且从技术角度来看也是积极的。由于预计正在开始发展的风力涡轮机和电动汽车使用寿命上会表现更长(9-13年),业界认为直到21世纪20年代末,全球潜在的钕回收供应将主要来自报废硬盘。

不过,当今全球依旧缺乏有效的稀土管理政策和相关法规的严格执行,但对稀土元素回收利用的研究却在获得越来越多共识。例如,欧盟委员会前不久发布《关键原材料法案》(《The Critical Raw Materials Act》)规定,欧盟委员会必须在2032年12月31日前通过授权法案,规定永磁体中钕、镝、镨等最低回收含量。而在此之前,还需要确保产品上有一个标签,表明它们是否含有永磁体。

所以,通过更好地实现存储节能技术,有利于延长硬盘使用寿命,不仅可以填补稀土资源从产品制造到实际可回会收利用政策配套体系完善的时间落差,也是数据中心应对废弃设备处理应有的谨慎态度。

存储已成为降低能耗的关键突破口

无疑,数据中心的存储设备配置中,硬盘依旧占据比例很大,这也是导致数据中心服务故障的主要原因之一。据业界统计,82%的服务器故障是由HDD故障引起的,导致数据丢失和经济损失。因此,提高硬盘的可靠性是极其重要的。导致硬盘出现故障的原因有很多,而温度如今成了一个不容忽视的因素。

传统上,数据中心环境使用空气冷却技术。用空气冷却去除热量的主要方法是通过增加设备机箱的气流量。通常,机架后面有一个热通道,机架前面有一个冷通道配置,通过与冷空气交换暖空气来散热。然而,随着数据量的发展,空气冷却越发不能为能量密集的存储设备确保适当的操作环境。

随着存储服务器越发向高密度硬盘部署,从传统24盘位向48、72甚至更多盘位的增多。按照传统空气冷却方式,冷气系统的前面吹到后面。在这种环境下,通常意味着,前面的盘要比后面的盘会冷得多。当前后的硬盘温度变化过大时,驱动器会出现不一致的磨损,导致不可预测的故障。机架高度的上的不同存储也会强化这种影响,尤其是较低的设备往往会消耗从地砖上来的较冷的气流。从未来的技术趋势来看,不断增加机架上的风扇功率将不是一个长期可持续的解决方案。

另外,在大型数据中心,数以百万计的硬盘被堆放在服务器机箱中。如果几个硬盘相邻放置,相邻驱动器或冷却风扇产生的振动会也对硬盘产生不同的影响,轨道跳动、内部和外部干扰的影响是很常见的。

前沿工作负载对存储能效优化提出更高要求

对于数据中心仍旧大范围应用的硬盘驱动器,一般都有四种电能消耗阶段:寻道、活动、空闲和待机。在寻道阶段,硬盘的磁头要被放在存储数据的磁道上。在活动阶段,HDD需要读写数据。在空闲阶段是既不进行读写,也不用寻道操作,但盘片仍转动。在待机阶段,盘片相比空闲阶段则是完全停止旋转。例如,以一个3.5英寸、7200转、10TB的SATA HDD为例,其空闲阶段功耗在7w左右,活动时功率可超过10w。显然,待机阶段比其它阶段消耗的功率少得多,寻道和活动阶段消耗的能量最大,因此减少其相关操作的数量就显得非常重要。

从这方面来看,依靠针对硬盘的智能化管理,更多地将HDD长时间置于待机阶段,似乎事很重要的理想节能选择。不过,这一“最佳追求“却并不能与当前很多前沿场景需求匹配,例如如今风头正劲的视频流服务。

009

随着5G时代的全面铺开,超高清视频、直播、云游戏、AR/VR/空间计算等视频数据应用正落地更多赋能领域,运营商依靠满足全新的网络渠道诉求重掌流量话语权。根据《2023中国网络视听发展研究报告》显示,我国网络视听用户规模达10.40亿,超过即时通讯成为第一大互联网应用。例如,截至2023年5月,中国移动短视频用户规模已超过6亿,年播放量超过2100亿,内容量超过5000万条,创作者规模超过10万,产业年产值超过100亿,为行业带来了全新的内容与流量入口。

视频服务运营商不仅需要提供涵盖TV大屏、移动小屏、AR/VR等第三屏的多屏体验,更需要与互联网内容提供商展开合作,打造满足移动化、高清化、沉浸式、个性化的视频消费体验。然而,以往对高清视频流畅体验的关注更多容易聚焦于网络要求,例如强调内容分发方式与运营商自身大带宽、超低时延的5G网络优势的有效结合。虽说面向诸如4K/8K+VR/AI的视频直播,使得使得5G连接越发成为必要条件,但高清视频数据引起的存储空间增长也应值得重视,尤其是视频存储系统本身就高耗能存储型应用场景。

为满足高清视频的流畅服务体验,视频服务商大多使用了基于HTTP的动态自适应流技术。通过将每个视频分成几段,然后将每个视频转编码为多个比特率版本,后端以便可以流式传输最适合HTTP网络服务器的比特率版本以支持每个客户端请求。包括YouTube、Netflix、B站等国内外的主流视频网站上都使用了该技术。YouTube甚至为每个视频片段存储10个以上比特率在500到35000 kbps之间的版本。这允许在网络条件较差时传输较低比特率版本(例如500 kbps),即使在低网络带宽下也能实现无缝流。

采用这种方式后,每当服务器接收到获取相应比特率版本的视频请求时,未被SSD缓存存储的数据请求需要从HDD阵列处理。即使请求的版本存储在SSD上,但由于SSD带宽限制,依旧要读取后端HDD阵列。尤其在更高码率的视频存储中,单一视频流片段就可以大到足以跨越一个或多个完整的硬盘磁道。因此,后端存储系统会充分利用分组的多个HDD分组带宽,并发IO来实现在客户端设备上视频播放的连续流畅体验。即使考虑到视频存储系统的容错需求,用RAID 1实现冗余,也不能保证HDD阵列的带宽利用率一定会低于50%。再考虑到硬盘从待机阶段到空闲阶段启动时间往往需要几秒钟,即使寻道时间为0.运营商也绝不敢将副本区域的HDD置于待机阶段。这意味着,数据中心可能需要有一半存储系统的硬盘即使不参与IO,也要处于空闲通电阶段,来保障带宽需求。

无论是通过增加高速内存来调整分组HDD带宽利用率,或是降低HDD的旋转速度来降低其功耗等等,数据中心的新应用需求限制了使用者只能通过减少寻道操作来实现有限的存储能源效率优化,但这同时也限制了对存储系统投资所应获得的最大性能收益。

如果说前面所讲的针对存储硬盘的能效优化空间思考,算是手术台级别的小范围活动;那么寄希望于通过提高PCIe、SAS等速度更为前沿的硬件设计来提高设备利用效率,则可能不啻于重建一所医院,一个需要全产业链参与的庞大工程了。然而,数据中心业界似乎是更加期望利用硅光技术来实现的新的超越。

031

当更高频率的电子信号沿着传统PCB中使用的金属通道传输时,数据通信速度的提高会对诸如服务器、交换机之类的IT系统加剧负面影响。随着这些电子信号频率的增加,介电吸收、趋肤效应等电阻损耗机制使其衰减更强,而信号反射、信号偏斜和其它电子通道的干扰则使其完整性发生扭曲。此外,系统运行的环境影响,如温度和湿度,会引起电路板衬底的变化,从而改变电子通道精密设计的平衡性。虽说许多这些限制可以在一定程度上得到缓解,然而,却导致整个系统设计成本的不断增加和功率损失风险增大。对此,现代数据中心领域更加期望通过发展硅光互联技术,例如增加可以利用FPGA、ASIC开发“光电共封装” (CPO)组件,应对信息通信系统内部容量、处理能力和带宽密度的指数级增长。例如,前不久台积电和博通、英伟达合作,组建了数百人的研发团队来开发硅光子超高速芯片。

不过,这种通过新材料范式来解决数据中心能源效率和计算性能的问题能力,落地商业场景还尚需时日,数据中心依旧需要通过在中短期即可实现的技术创新来提高能效优化。

架构创新带动存储设备最佳工作状态发生新变化

如今,对于存储系统节能优化考量,也需要远超其介质本身特性来实现更大范围的综合考量,尤其是新业务架构的变化。

一些新的业务负载、工作架构模式上的新范式,推动了存储系统能量应用的更多新变化。这些因素促使数据中心越发难以了解存储设备的最佳工作状态,例如新的IT架构导致硬盘需要增加的复杂功能,而这种功能可能需要通过增加硬盘能量和或需要在原有期望的水平之上来执行。新的功能的增加,也可能导致当前的冷却系统效率的低下。

例如,HPC应用的数据中心正从对象存储(Object Storages)向对象驱动器(Object Drives)的架构设计转变,而这一方式需要存储设备来承担更多工作,新的架构可能考验数据中心硬盘需要在新的最佳温度下工作的能力。

041

Ceph、Lustre、Openstack Swift、MinIO等是目前流行的对象存储系统,其后端存储服务器建立在传统操作系统POSIX之上的。基本上,这些对象存储软件堆栈可以分为用户空间、操作系统内核和后端存储。

其中,操作系统部分的工作可以概括为:对象存储管理服务监听倒到用户请求(Object-IO)会转换为存储服务器中的位置/文件(Object-IO 到File-IO),文件系统创建元数据并重新索引请求Block-IO,由Block-IO层通过设备(LBA)转换,最后调度到到物理地址页(PPA),完成对象持久化存储。在这一I/O数据路径中,数据会遇到很多中间层,每个经过的层都会添加自己的语法和语义。

在操作系统中,虚拟文件系统VFS、文件系统和Block-IO层是实现数据访问和持久化的最关键组件,这些组件当初虽说是基于硬盘驱动器而设计的。不过,随着云对象存储环境中对高度并发和多路复用场景的增加,从传统对象存储架构中获得的收益正在被抵消。例如,在IO数据路径中遇到的中间层越多,请求处理的延迟就越会高。随着存储子系统对性能、一致性和容错性要求的不断提高,资源争夺现象加剧,对象管理的复杂性也急剧增加。为主机和用户应用程序,进行更多的转换、缓存和磁盘活动及索引开销,这种影响会转化为更高的硬件资源消耗和延迟。对此,业界期望可以将主机数据管理功能更多卸载到存储设备上,从对象存储向对象驱动器的架构设计转变,让整个存储堆栈得到简化。

例如,近日Linux基金会宣布了DAOS 基金会成立,这是一个旨在推进分布式异步对象存储(Distributed Asynchronous Object Storage,DAOS)项目的治理和开发的倡议。DAOS基金会得到了创始成员美国阿贡国家实验室、Enakta实验室、Google Cloud、惠普企业(HPE)和英特尔的广泛支持。

DAOS是针对HPC的面向生产就绪的对象存储技术之一,提供了一个键值存储接口和其它高级API,强调使用键值(Key-Value)接口而不是传统的POSIX基于块的接口,将对象请求服务移植于依赖于存储介质上对象的自定义管理,让IO路径简化为“Object-IO到Object-ID”,由设备识别KV对,从而摆脱传统POSIX文件系统语义施加的约束(如元数据管理)和过度的一致性保证(如时间戳)。

如今,键值存储已经是事实上的非结构化大数据的标准数据库应用。领先数据服务提供商都打造了自己的键值存储系统,包括谷歌的LevelDB、Meta的RocksDB、AWS的Dynamo、Facebook的Cassandra等等。由于它们能够容纳多种数据格式,并支持键值抽象,因此它们被积极用于多种服务,包括社交图分析、AI/ML服务和分布式数据库等等。

虽说DAOS专为大规模分布式非易失性内存(SCM/NVMe)而设计,但此前,与此设计理念类似但适合大规模HDD场景的希捷Kinetic Drive,已经实现了对象驱动器在一些工业场景的友好实现。

硬盘在特定的温度下工作会表现最佳状态,当机房包含的大量硬盘有着新的工作负载模型时,这种影响也会导致温度与性能的新作用关系。作为数据中心负责人和IT供应商,显然应该及时了解存储服务器在新工作模式下的工作温度要求,以确保最佳功能和使用寿命。

曙光存储推出更适合国内市场的液冷存储系统

更大规模的数据存储,意味着需要更多的永磁电机资源与更多的IO操作,还要适应更多的业务负载模型与资源调度能力,所有这些都意味着数据中心存储正在需要更多的电力消耗。随着容量密度的增加,磁盘的功率也在增加,它们产生的热量也在增加。伴随着相关政策合规性的趋紧,以及服务供应商产品/服务能力的有效响应,数据中心需要减少存储能源消耗同时提升存储应用效率的动力,正在变得日益强烈。

当2022年末,Meta展示了如何通过精密液体冷却HDD机架的方法等时候,瞬间获得了业界的广泛关注,创新性的解决了电、水、空间、噪音等资源消耗的问题,降低TCO并提高了ESG合规性。而这些,都是当今数据中心运营商期望拥有的关键优势能力。

Meta证实了机箱级液冷技术的效率和有效性,诸如所有硬盘的温度差异仅为3°C,与其在JBOD内部的位置无关;系统级冷却功率低于总功耗的5%;减轻声学振动问题;将驱动器冷却在更低、更一致的温度下,从而减少了驱动器故障。

液冷存储已经被证明是一个非常有价值的技术。幸运的是,国内几乎与Meta的研究公开同步,中科曙光率先在业界实现了液冷存储技术,并推出业界首款液冷存储——曙光ParaStor 液冷存储系统,得以让液冷存储尽快在国内用户受益。

005

Meta的液冷方案是建立在成本更高的氦气硬盘之上的。由于氦气硬盘的密封性使其可以容易应用浸没方案。由于应用范围只局限于Meta一家,这种TCO参考范围或并不适用于那些需要承担多租户的数据中心运营,尤其是像国内更多普遍依旧采用CMR传统磁盘的绝大多数数据中心。若是这类磁盘需要浸没就需要做镭射工艺,这种成本的提高显然是国内市场难以接受的。

对此,中科曙光基于冷板式的液冷存储系统设计,一经推出便受到国内的广泛关注,华南理工大学则成了第一批该液冷存储系统的受益者。

国内首个!华南理工大学落地存算一栈式数据中心

近日,太平洋科技受邀探访这座国内首个成功部署存算一栈式的液冷数据中心——华南理工大学液冷数据中心。期间,华南理工大学副首席信息官兼网信办主任陆以勤,信息网络工程研究中心(信息化办公室)数据与计算中心主任黄建波,及曙光存储产品事业部总监石静,接受了太平洋科技的采访。

shuguang

 

曙光存储在此次同华南理工大学的合作中,成功为华南理工大学部署近25PB 液冷存储,基本完成全栈式液冷数据中心建设,实现同等规模下性能提升100%、数据中心PUE(电源使用效率)降低至1.2等显著成效,填补了行业空白。

作为国家985和双一流建设A类高校,华南理工大学建有29个国家级科研平台、231个部省级科研平台,数量位居广东高校首位。陆以勤介绍,该校数据中心广泛承载学校的云计算平台、科学计算、无线网、容灾和托管业务,为国家科研项目和在校超10万名师生提供密集的数据计算资源。

“随着算力、存力越发成为高校的生产资源要素,更加细分的场景化诉求不仅要求高校的数据中心建设提高性能和智能化水平,也需要更加注重能源效率。在项目设计之初,就认真考虑了电力能源消耗对环境的影响。而计算和存储的全栈液冷方案,是寻求性能、质量、绿色环保与成本之间的有效平衡方式。” 陆以勤介绍。

其中,存储系统改为直接采用液冷,会涉及到材料、施工、运维、成本等诸多因素,而曙光存储推出的液冷存储系统设计尚无之前经验参考。那华南理工大学为何敢做第一个实践者?

陆以勤介绍,华南理工大学是国内一流、世界知名的高水平科研大学,深厚的科研基因铸就了学校敢于尝试最新技术的特质,尤其是在很多环节,学校的技术人员还可以深入参与项目的实施,并带来新的成果突破。“在液冷存储系统实施中,我们可以很明确其中的一些技术关键点。例如,在一些组件中,学校有很高的新材料科研水平,我们在实施中就可以针对学校的具体情况来应用一些新的材料。学校的运维人员对于液冷领域也有很深技术背景,这样有利于液冷存储更好地落地实践。同时,曙光存储做全栈式液冷数据中心建设的能力,也获得了我们的信任。”

另外,黄建波表示:“学校数据中心首先面临的硬性指标,就是将PUE值降低为1.2.由于业务负载多样化、管理规模导致复杂度不断升级等等,数据中心的计算和存储的增长不是同步拓展的,在数据中心的低能耗发展趋势下,存储已成为降低能耗的关键突破口。”

此次华南理工大学存算一栈式液冷数据中心的成功落地和应用,不仅为科研教育的绿色数字化建设提供了样板案例,也为AI、运营商、科教等高耗能行业与应用场景带来新的解决方案,助力千行百业可持续发展。

111111

曙光液冷存储价值何在?

第一,有利于用户实现符合PUE限制的数据中心通盘规划能力。

随着各地对数据中心建设PUE值的监管趋严,数据中心需要越发重视自己的能效改善。以往,受限于供应条件及数据应用方式,数据中心能源效率更加偏向对计算资源的改善。如今随着5G、AI、大数据、物联网技术的普及,人们参与数据的交互方式,已经极大地促进了数据中心存力的增长。这就意味着此前数据中心注重的计算侧的液冷建设所驱动的能源改善效应,可能会被存储侧的能源需求增长所削弱,甚至会继续推高PUE值。

对此,曙光存储及时推出了液冷存储系统解决方案,有利于客户实现符合PUE限制的通盘规划能力。石静介绍,由于曙光ParaStor 液冷存储系统与曙光液冷服务器同源,二者可形成" 存算一栈式" 液冷方案,便于数据中心基础设施的统一规划、设计和共用,降低成本。在提供全栈式液冷数据中心解决方案时,曙光可以覆盖数据中心建设的全生命周期,实现液冷数据中心端到端交付。从冷却塔、管路等基建开始就将液冷系统的安全部署考虑在内,并为未来的扩容做好准备。

第二,有利于用户打造更高效的存储优化能效模型。

在大规模数据中心里,海量数据的存储和处理一直是相关人员和存储系统的主要挑战。例如传统上,S.M.A.R.T.日志数据用于监视硬盘内部的各种工作信息,如硬盘当前环境温度、硬盘读写次数、寻道错误率等等。不过,由于不同的硬盘厂家对自己的硬盘S.M.A.R.T.特性有不同的定义。厂家还会为每个属性设置一个保守阈值,当数据超过阈值时报警。然而,这种方法总是导致较低的故障报警率和较低的故障检测率。

曙光液冷存储技术的天然优势就是无风扇设计,可为硬盘提供超静音且无震动的工作环境,在提高读写性能及稳定性同时,导热液体可精确平衡全体硬盘的热能功耗,为数据中心运维提供进一步的一致性运维体验。尤其是在管理大规模设施方面,对于适应新的业务负载模式、新的业务形态等,例如基于托管的数据中心的“资源黑盒”模式,拥有一致性的精确运营能力会显得至关重要。

此外,针对冷板漏液风险,曙光存储系统在内部设置多个监控点实时监测,通过漏液导流结构、漏液检测装置、温度监控装置,在发生漏液、冷板堵塞、断液、超温等故障问题时自动报警,可有效保障系统不遭受漏液风险。

第三,对于细分场景液冷需求能力的有力完善。

近日,曙光存储为华南理工大学打造的液冷存储系统,作为业内首个也是唯一一个成功部署的案例,入选了IDC 发布的《液冷数据中心白皮书》。

该IDC 白皮书提到,预计2022-2027 年,中国液冷服务器市场年复合增长率将达到56.6%,2027 年市场规模将达到96 亿美元。但在2022 年,中国液冷服务器数量不到服务器总量的3%,渗透率在10% 左右。

自2023 年至今,主流IT 设备厂商均已公开表明将加大研发力度并加快产品迭代速度,这也将加速液冷在数据中心的规模化落地。曙光存储的ParaStor 液冷存储产品将液冷方案与存储技术结合,形成" 存算一栈式" 液冷方案,在提高运维效率的同时,助力数据中心部署更便捷。华南理工大学打造的液冷存储系统,也会对AI、运营商、科教行业市场的应用,提供有价值的借鉴意义。

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部