太平洋科技企业站

CXL在AI时代已死

佚名整合编辑：王珂玥发布于：2024-03-18 09:30

如果我们回到两年前，在人工智能迅速崛起之前，大部分数据中心硬件都在追逐CXL。它被看为是异构计算、内存池和可组合服务器架构的救世主。现有的参与者和全新的初创公司都急于将CXL集成到他们的产品中，或者创建新的基于CXL的产品，如内存扩展器、连接池(pooler)和交换机。然而快进到2023年和2024年初，许多项目被悄悄搁置，许多超大规模企业和大型半导体公司几乎完全退出了市场。

随着即将到来的Astera Labs IPO和产品发布，CXL的讨论至少会在短时间内回到前台。我们已经写了大量关于这项技术的文章，它为云服务提供商以及生态系统和硬件堆栈，提供节省成本的潜力。虽然在纸面上非常有前景，但数据中心的前景已经发生了很大的变化，但有一件事没有改变：CXL硬件(如控制器和交换机)仍然没有大量出货。尽管如此，围绕CXL仍然有很多噪音和研究，行业中的某些专业人士现在将CXL描述为人工智能的“推动者”。

更广泛的CXL市场是否已经准备好起飞并兑现其承诺？CXL能成为AI应用程序的连接点吗？在CPU附加扩展和池化中扮演什么角色？我们将在本报告的订阅部分回答这些问题。

简单的答案是否定的——那些将CXL推向AI的人是完全错误的。让我们首先快速回顾一下CXL的主要用例和承诺。

对CXL的一个简单回顾

CXL是建立在PCIe物理层之上的协议，支持跨设备的缓存和内存一致性。利用PCIe接口的广泛可用性，CXL 允许在各种硬件之间共享内存：CPU、网卡和 DPU、GPU 和其他加速器、SSD 和内存设备。

这支持以下用例:

内存扩展：CXL可以帮助服务器增加内存带宽和容量。

内存池：CXL可以创建内存池，其中内存与CPU分离，从理论上讲，这可以大大提高DRAM利用率。理论上，这可以为每个云服务提供商节省数十亿美元。

异构计算：ASIC比通用CPU要高效得多。CXL可以通过在ASIC和通用计算之间提供低延迟缓存一致互连来帮助实现异构计算，这样应用程序就可以更容易地将它们集成到现有的代码库中。

可组合的服务器体系架构：服务器被分解成不同的组件，并分不同的组，这些资源可以动态地分配给工作负载，从而改善资源搁浅和利用率，同时更好地匹配应用程序需求。

下图说明了部分情况：CXL可以解决主系统内存和存储之间的延迟和带宽差距，从而作为新的内存层。

SNIA

有些人现在预测到2028年CXL的销售额将达到150亿美元，而不是今天的数百万美元，所以我们觉得是时候对CXL市场进行适当的更新了，因为这是一个完全荒谬的说法。让我们从解决用于人工智能的CXL案例开始。

CXL不会成为人工智能时代的互联技术

目前，CXL可用性是主要问题，因为Nvidia GPU不支持，而AMD的技术仅限于MI300A。虽然MI300X理论上可以在硬件中支持CXL，但它并没有正确地公开。CXL IP的可用性将在未来得到改善，但是存在比可用性更深层的问题，使CXL在加速计算时代变得无关紧要。

两个主要问题与PCIe服务器和海滨或海岸线区域(beachfront or shoreline area)有关。芯片的IO通常必须来自芯片的边缘。下面这张来自Nvidia的图片以卡通的形式展示了H100.中心拥有所有的计算。顶部和底部都100%用于HBM。当我们从H100移动到B100时，HBM的数量增加到8个，需要更多的岸线面积。Nvidia将继续在其 2 芯片封装的整整两侧使用HBM。

Locuza

剩下的两边专用于其他芯片到芯片的IO，这就是标准和专有互连争夺芯片面积的地方。H100 GPU有PCIe、NVlink、C2C (Grace)三种IO格式。Nvidia决定只包括最少16个PCIe通道，因为Nvidia更喜欢后者的NVLink和C2C。请注意，服务器CPU，如AMD的Genoa，最高可达128通道的PCIe。

这种选择的主要原因是带宽。16通道PCIe接口的单方向带宽为64GB/s。Nvidia的NVlink为其他GPU提供了450 GB/s的双向带宽，大约高出7倍。Nvidia 的C2C也能为Grace CPU带来每秒450GB/s的双向带宽。公平地说，Nvidia为NVLink贡献了更多的海滨面积，因此我们需要将芯片面积纳入其中;但即便如此，我们估计，在各种各样的SOC中，每平方毫米，以太网风格的SerDes(如Nvidia NVLink, Google ICI等)每单位海岸线面积的带宽要多3倍。

因此，如果你是一个带宽受限的芯片设计师，当你选择使用PCIe 5.0而不是112G以太网风格的SerDes时，你的芯片大约会差3倍。这种差距在采用224G SerDes的下一代GPU和AI加速器中仍然存在，与PCIe 6.0 / CXL 3.0保持3倍的差距。我们生活在一个有限的世界里，放弃IO效率是一种疯狂的权衡。

AI集群的主要扩展和扩展互连将是专有协议，如Nvidia NVlink和Google ICI，或以太网和Infiniband。这是由于内在的PCIe SerDes限制，即使在扩展格式。由于延迟目标不同，PCIe和以太网serde具有显著不同的误码率(BER)要求。

Astera Labs

PCIe 6要求的误码率< 1e-12.而以太网要求的误码率为1e-4.这8个数量级的巨大差异是由于PCIe严格的延迟要求，需要非常轻的前向纠错(FEC)方案。FEC在发射器上以数字方式添加冗余奇偶校验位/信息，接收器使用它来检测和纠正错误(位翻转)，就像内存系统中的ECC一样。较重的fec增加了更多的开销，占用了可以用于数据位的空间。更重要的是，fec在接收器上增加了大量的延迟。这就是为什么PCIe在第6代之前避免了任何FEC。

Wikipedia

以太网风格的SerDes受严格的PCIe规范的限制要少得多，从而使其速度更快，带宽更高。因此，NVlink具有更高的延迟，但这在大规模并行工作负载的AI世界中并不重要，其中~100ns vs ~30ns不值得考虑。

MI300 AID将其大部分海滨区域用于PCIe服务器而不是以太网风格的服务器。虽然这给了AMD在IFIS、CXL和PCIe连接方面更多的可配置性，但它的结果是总IO大约是以太网风格SerDes的1/3.如果AMD想要与英伟达的B100竞争，他们需要立即放弃使用pcie风格的SerDes。我们相信MI400是这样的。

长期来看，AMD缺乏高质量的芯片严重限制了他们产品的竞争力。他们提出了Open xGMI / Open Infinity Fabric / Accelerated Fabric Link，因为CXL不是人工智能的合适协议。虽然它主要基于PCIe，但出于上市时间、性能、一致性和覆盖范围的原因，它确实避开了PCIe 7.0和CXL的一些标准特性。

原文《CXL Is Dead In The AI Era》

by/ DYLAN PATEL AND JEREMIE ELIAHOU ONTIVEROS

CXL

佚名

原创栏目