首页 > 企业站 > 企业站_资讯眼> 正文

CXL在AI时代已死

佚名 整合编辑: 王珂玥 发布于:2024-03-18 09:30

如果我们回到两年前,在人工智能迅速崛起之前,大部分数据中心硬件都在追逐CXL。它被看为是异构计算、内存池和可组合服务器架构的救世主。现有的参与者和全新的初创公司都急于将CXL集成到他们的产品中,或者创建新的基于CXL的产品,如内存扩展器、连接池(pooler)和交换机。然而快进到2023年和2024年初,许多项目被悄悄搁置,许多超大规模企业和大型半导体公司几乎完全退出了市场。

随着即将到来的Astera Labs IPO和产品发布,CXL的讨论至少会在短时间内回到前台。我们已经写了大量关于这项技术的文章,它为云服务提供商以及生态系统和硬件堆栈,提供节省成本的潜力。虽然在纸面上非常有前景,但数据中心的前景已经发生了很大的变化,但有一件事没有改变:CXL硬件(如控制器和交换机)仍然没有大量出货。尽管如此,围绕CXL仍然有很多噪音和研究,行业中的某些专业人士现在将CXL描述为人工智能的“推动者”。

更广泛的CXL市场是否已经准备好起飞并兑现其承诺?CXL能成为AI应用程序的连接点吗?在CPU附加扩展和池化中扮演什么角色?我们将在本报告的订阅部分回答这些问题。

简单的答案是否定的——那些将CXL推向AI的人是完全错误的。让我们首先快速回顾一下CXL的主要用例和承诺。

对CXL的一个简单回顾

CXL是建立在PCIe物理层之上的协议,支持跨设备的缓存和内存一致性。利用PCIe接口的广泛可用性,CXL 允许在各种硬件之间共享内存:CPU、网卡和 DPU、GPU 和其他加速器、SSD 和内存设备。

这支持以下用例:

内存扩展:CXL可以帮助服务器增加内存带宽和容量。

内存池:CXL可以创建内存池,其中内存与CPU分离,从理论上讲,这可以大大提高DRAM利用率。理论上,这可以为每个云服务提供商节省数十亿美元。

异构计算:ASIC比通用CPU要高效得多。CXL可以通过在ASIC和通用计算之间提供低延迟缓存一致互连来帮助实现异构计算,这样应用程序就可以更容易地将它们集成到现有的代码库中。

可组合的服务器体系架构:服务器被分解成不同的组件,并分不同的组,这些资源可以动态地分配给工作负载,从而改善资源搁浅和利用率,同时更好地匹配应用程序需求。

下图说明了部分情况:CXL可以解决主系统内存和存储之间的延迟和带宽差距,从而作为新的内存层。

SNIA

有些人现在预测到2028年CXL的销售额将达到150亿美元,而不是今天的数百万美元,所以我们觉得是时候对CXL市场进行适当的更新了,因为这是一个完全荒谬的说法。让我们从解决用于人工智能的CXL案例开始。

CXL不会成为人工智能时代的互联技术

目前,CXL可用性是主要问题,因为Nvidia GPU不支持,而AMD的技术仅限于MI300A。虽然MI300X理论上可以在硬件中支持CXL,但它并没有正确地公开。CXL IP的可用性将在未来得到改善,但是存在比可用性更深层的问题,使CXL在加速计算时代变得无关紧要。

两个主要问题与PCIe服务器和海滨或海岸线区域(beachfront or shoreline area)有关。芯片的IO通常必须来自芯片的边缘。下面这张来自Nvidia的图片以卡通的形式展示了H100.中心拥有所有的计算。顶部和底部都100%用于HBM。当我们从H100移动到B100时,HBM的数量增加到8个,需要更多的岸线面积。Nvidia将继续在其 2 芯片封装的整整两侧使用HBM。

Locuza

剩下的两边专用于其他芯片到芯片的IO,这就是标准和专有互连争夺芯片面积的地方。H100 GPU有PCIe、NVlink、C2C (Grace)三种IO格式。Nvidia决定只包括最少16个PCIe通道,因为Nvidia更喜欢后者的NVLink和C2C。请注意,服务器CPU,如AMD的Genoa,最高可达128通道的PCIe。

这种选择的主要原因是带宽。16通道PCIe接口的单方向带宽为64GB/s。Nvidia的NVlink为其他GPU提供了450 GB/s的双向带宽,大约高出7倍。Nvidia 的C2C也能为Grace CPU带来每秒450GB/s的双向带宽。公平地说,Nvidia为NVLink贡献了更多的海滨面积,因此我们需要将芯片面积纳入其中;但即便如此,我们估计,在各种各样的SOC中,每平方毫米,以太网风格的SerDes(如Nvidia NVLink, Google ICI等)每单位海岸线面积的带宽要多3倍。

因此,如果你是一个带宽受限的芯片设计师,当你选择使用PCIe 5.0而不是112G以太网风格的SerDes时,你的芯片大约会差3倍。这种差距在采用224G SerDes的下一代GPU和AI加速器中仍然存在,与PCIe 6.0 / CXL 3.0保持3倍的差距。我们生活在一个有限的世界里,放弃IO效率是一种疯狂的权衡。

AI集群的主要扩展和扩展互连将是专有协议,如Nvidia NVlink和Google ICI,或以太网和Infiniband。这是由于内在的PCIe SerDes限制,即使在扩展格式。由于延迟目标不同,PCIe和以太网serde具有显著不同的误码率(BER)要求。

Astera Labs

PCIe 6要求的误码率< 1e-12.而以太网要求的误码率为1e-4.这8个数量级的巨大差异是由于PCIe严格的延迟要求,需要非常轻的前向纠错(FEC)方案。FEC在发射器上以数字方式添加冗余奇偶校验位/信息,接收器使用它来检测和纠正错误(位翻转),就像内存系统中的ECC一样。较重的fec增加了更多的开销,占用了可以用于数据位的空间。更重要的是,fec在接收器上增加了大量的延迟。这就是为什么PCIe在第6代之前避免了任何FEC。

Wikipedia

以太网风格的SerDes受严格的PCIe规范的限制要少得多,从而使其速度更快,带宽更高。因此,NVlink具有更高的延迟,但这在大规模并行工作负载的AI世界中并不重要,其中~100ns vs ~30ns不值得考虑。

MI300 AID将其大部分海滨区域用于PCIe服务器而不是以太网风格的服务器。虽然这给了AMD在IFIS、CXL和PCIe连接方面更多的可配置性,但它的结果是总IO大约是以太网风格SerDes的1/3.如果AMD想要与英伟达的B100竞争,他们需要立即放弃使用pcie风格的SerDes。我们相信MI400是这样的。

长期来看,AMD缺乏高质量的芯片严重限制了他们产品的竞争力。他们提出了Open xGMI / Open Infinity Fabric / Accelerated Fabric Link,因为CXL不是人工智能的合适协议。虽然它主要基于PCIe,但出于上市时间、性能、一致性和覆盖范围的原因,它确实避开了PCIe 7.0和CXL的一些标准特性。

原文《CXL Is Dead In The AI Era》

by/ DYLAN PATEL AND JEREMIE ELIAHOU ONTIVEROS

CXL
佚名

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部