太平洋科技企业站

存储厂商的终结！泰裤辣!

Asgardia 编辑：王珂玥发布于：2023-06-05 13:38 PConline原创

有数据显示，2017-2022年期间数据存储行业呈整体稳步增长态势。业界对于云计算、AI物联网等IT算力、算法、数据的迫切需求，推动者对智算架构体系 “承载”能力的进步。当下AIGC产生的大量数据，如图片照片、音视频、文档等，更加成为存储市场的重要推手。但是，如此新场景、新应用方式的大规模互联需求，也在推动着存储市场新的变革。从存储商品原型到企业应用落地的周期之间，可能增加了大量的暗流涌动。

CXL

CXL（Compute Express Link）是如今存储业界热议最多的热点之一。他是英特尔发布的一种处理芯片间缓存一致性的动态多协议技术。CXL的一个重要优点是，它为加速器访问系统和系统访问附加到CXL设备的内存提供了低延迟、高带宽的路径。之后，英特尔更是与众多科技公司，诸如阿里巴巴、思科、戴尔EMC、Facebook、谷歌、HPE、华为以及微软等等，成立了CXL开放合作联盟，来共同合作开发CXL开放互连技术并制定相应规范。

到如今，CXL已经发展到3.0版本，并且对此前的版本兼容。CXL 1.1的时候支持DAS模型。CXL 2.0规范支持更多使用模型支持托管热插拔、安全性增强、持久内存支持、内存错误报告和遥测。到CXL 3.0规范将带宽提高了一倍，同时支持CXL 2.0规范之外的其他使用模型。由于CXL是基于PCIe 5.0发展而来，为此它运行在PCIe物理层上，并与PCIe具有相同的电气特性。

综合来看，CXL在业界的发展体现出了两个趋势。

由于CXL支持易失性存储的总线扩展，最初的时候大家的关注重点更多是将CXL设备作为企业的主存储扩展方案，期望在高速和低延迟的模式下实现与内存节点和其他设备间的连接。为此，内存扩展控制器芯片(MXC)创新的一片蓝海。例如，美光的HMC通过16个SerDes通道连接到主机，传输速度可高达160GB/s。

此后，随着CXL发展到3.0版本规范启用了多级交换，支持多达4K端口，使CXL能够发展为一个扩展的结构，可以实现Pod、机架规模的扩展。为此，利用CXL来实现内存池化，如今成了众公有云厂商更为广泛和迫切的需求。

公有云通常是以VM的形式提供给客户部署他们的工作负载的，因此使他们可以获得性能接近专用云的虚拟化计算。公有云服务商承担了系统管理的维护。但公有云服务商有这一个重大挑战：VM内部运行的内容不透明，让他们难以发现更具竞争力的硬件成本优化方案。毕竟，公有云提供商需要满足严格的性能要求和更低硬件成本来实现更大盈利。而性能和成本的一个关键驱动因素是主存储器。有数据表明，在Azure中，DRAM可以占服务器成本的50%，在Meta中可以占机架成本的40%。

传统的做法是，尽量让访问与发出访问的核心由同一个NUMA节点提供服务，通常是将所有VM内存预先分配到与VM核心相同的NUMA节点上，通过预分配和静态固定内存来为虚拟化加速。但这样带来的的显著问题是，内存滞留成了内存浪费的主要来源。即，当服务器的所有核心都被租用(即分配给客户VM)，但未分配的内存容量仍然存在并且无法租用时，就会发生阻塞。这种麻烦有时会让1/4的DRAM陷入困境，解决这个问题亟需提上日程。对公有云产商来说， DRAM由于其在面积、通道、价格等方面的制约，很难实现更高的可扩展性，而CXL的内存池化可以显著提高内存利用率。

为此，微软打造了Pond，据说这是第一个在公有云平台上实现相同NUMA节点内存性能和具有竞争力成本的系统。Pond结合了硬件和系统技术，依赖CXL互联标准，支持以纳秒级延迟对Intel、AMD和ARM处理器上的池内存进行可缓存的加载/存储访问。如今他们公开了经过验证的Pond设计。并表明，通过一个跨越16个插槽的Pond池，可以减少7%的DRAM需求，这相当于为大型云提供商节省数亿美元的成本。

有关CXL更多的应用特性正在被越来越多的人发现。诸如有的团队发现CXL用的PCIe可以用更少的引脚来实现匹配的DDR更高更的性能。例如，DDR5-4800通道的峰值单向带宽为38.4GB/s，需要超过160个处理器引脚来处理数据和ECC位、命令/地址总线、数据频闪、时钟、特征模式等。而PCIe是每个通道只需要四个处理器引脚，为了匹配DDR5 38.4GB/s的带宽，利用PCIe x8配置需要32个引脚来实现32GB/s的峰值带宽，既是DDR5通道所需的160个引脚的1/5，双向峰值聚合带宽为64GB/s，远高于DDR5的38.4GB/s。若是如此下去，难保哪天CXL会完全取代DIMM。

有业界人士表示，CXL的应用渗透可能会引起整个IT架构格局的演变，例如从传统以CPU为中心向以DRAM为中的数据基础设施方向转变。

DRAM

CXL将DRAM打造成了新的掌上明珠，但DRAM自身的努力也让自己站在了新的风口——HBM。

HBM（高带宽存储器）是一种采用三维堆叠和硅通孔技术的超高宽带、低功耗的新型DRAM,主要应用在高性能计算处理器、人工智能计算加速卡、高端专业显卡等高性能计算领域。国际电子元件工业联合会(JEDEC)先后发布了4代HBM技术标准, ,为新一代高带宽内存指定了发展方向。

正如之前所讲，当代IT系统的性能表现强烈依赖于CPU和动态DRAM的协同配合。计算单元根据指令从内存中读取数据，完成计算处理后将数据存回内存。多年以来,CPU的运行速度在摩尔定律的推动下快速提升,目前主流CPU的主频可高达近5 GHz,而DDR5性能可达7800MHz,已经是近于DDR4的4倍。考虑到在高性能计算、数据中心、人工智能 (AI)应用中，顶级高算力芯片的数据吞吐量峰值在数百TB/s级别。但主流内存或显存带宽最高只是数十GB/s，这种量级据应用需求还有较大差距。DRAM已经成为了制约计算机性能发展的重要瓶颈，所谓 “内存墙”问题由此而来。

HBM堆叠结构包含多层DRAM芯片和一层基本逻辑芯片，4层或8层甚至更多层数的DRAM芯片以堆叠形式整合在一起，不同DRAM芯片之间以及DRAM芯片与逻辑芯片之间用TSV和微凸块技术实现通道连接。每个HBM DRAM芯片可通过多达8条通道与外部相连，每个通道可单独访问 1组DRAM阵列,通道间访存相互独立。据新思界发布的《2023-2027年高带宽存储器（HBM）行业市场深度调研及投资前景预测分析报告》显示，预计2025年，中国高带宽存储器（HBM）需求量将超过100万颗。

不过与DRAM芯片不同的是，HBM采用多层KGSD设计，不是封装级成品，成品必须在半导体工厂组装。目前，HBM多是以GPU\FPGA组合，支持高性能计算的研发。另据媒体报道，中国虽有部分单位研究、应用HBM，并获得了一些技术成果，但距离自主开发、生产还有较大的距离。如今，HBM市场布局仅以三星、美光和SK海力士为代表。

不过，在传统DRAM领域，DRAM也让自己成功深入AI领域，即内存计算。例如，微软的FaRM。

A1是微软的一个分布式内存图数据库，Bing搜索引擎使用它来支持对结构化数据的复杂查询。A1的关键推动因素是廉价DRAM和商用硬件中的高速RDMA(远程直接内存访问)网络的可用性。A1使用FaRM作为其底层存储层，并在其上构建图抽象和查询引擎。内存存储和RDMA访问的结合需要重新思考数据在大型分布式系统中的分配、组织和查询方式。单个A1集群可以存储数百亿个顶点和边，支持每秒3.5亿次顶点读取的吞吐量，端到端查询延迟以个位数毫秒为单位。

FaRM将数据存储在主存中，并将内存作为共享地址空间公开，应用程序可以使用事务在具有位置透明性的地址空间中分配、读取、写入和释放对象。FaRM利用RDMA来提高延迟和吞吐量，因为它绕过了内核，避免了复杂协议栈的开销，并且只使用远程网卡执行远程内存访问，而不涉及远程CPU。

微软针对RDMA原型做了大量的设计改进，诸如开发内核驱动程序来建立更大的页表来减少NIC页表中的条目数量，开发了新的一致性哈希来实现合适的地址映射，内存分配器被组织成一个三层层次结构——slabs、blocks和regions等等。

不过，当前业界对靠近存储的计算的关注更多放在了二级存储上。

SSD

之所以单拿SSD作为二级存储的代表来说，是因为SSD已经是二级存储市场增长最快的介质了。根据市场调查机构 Yole Group 公布的最新报告，2028 年全球 SSD 市场营收规模将增加至 670 亿美元。出货量的复合年增长率可达 15%。

而从应用上看，大数据、人工智能、高性能计算等领域，SSD也成了业界设计研发为CPU卸载工作负载的主战场——存内计算。

考虑到SSD的发展历史看，每到因数据激增和价格下降等因素促进大规模应用普及时期，SSD厂商们似乎都不太好受，存储原型设计其实并不好用。

例如，作为中国最大互联网搜索引擎公司的百度就是SSD应用的率先践行者，其数据中心的SSD可能是数百万规模的。百度并没有遵循SSD的原厂设计，对SSD原型进行七拆八卸，搞了个适合自己的SDF（软件定义闪存）。诸如，不做垃圾回收、不做RAID，省略了文件系统、Block设备、IO调度、SATA协议等等的。搞出来之后，SDF可以提供大约95%的原始闪存带宽，并为用户数据提供99%的闪存容量。与百度使用的基于商用SSD的系统相比，SDF将I/O带宽提高了300%，每GB硬件成本平均降低了50%。

现如今，SSD厂商们正在思虑如何站在存内计算的风口，而这可不是满足用户数据激增能轻易吹起来的。

现在很多迫切的需求都在逼着工作负载从CUP卸载到SSD，很多还是以人工智能、神经网络为代表的大数据科技的落地需求，诸如大规模分选应用中的外部排序问题，GNN推断放在底层存储里等场景。

其实，业界很早就考虑存卸载CPU的负担负担了，典型如数据过滤，让CPU获取并检查整个数据集，率先获得有用的信息；典型如MapReduce或Hadoop，让数据并行映射函数过滤数据；更或者建立在传统数据库(DB)系统的基础上，利用选择和项目操作来过滤结构化记录。

不过随着SSD在业界的普及应用，以及SSD在性能上不断的突破表现，对此该如何驱动存储上的闲置算力就进入人们的视线。为此，很多高端闪存控制器厂商，不得不设计适合相应的大数据算力应用原型。

新的业态开始出现。诸如在除了控制器和缓存外加入嵌入式ARM内核，或是引入ASIC等等。但这些，并没有引起太大的反应。诸如，人们开始认识到这些设计用于执行驱动器固件并不那么好用，即使硬件定制带来高性能突破却只是针对有限的应用，或是局限的某个场景。

在闪存的开发外部算法方面更是面临着严峻的挑战。闪存在带宽级已经低了很多（微秒级vs纳秒级）。同时，闪存有着更粗的访问颗粒度，4KB到8KB页面（内存是字节级）。由于擦除和写入导致存储单元的需要更大范围的磨损均衡，闪存还存在更短的寿命问题。这已经到了介质本身引起的性能稳定的固有问题了。

但也正因如此，存储厂商有着不懈的动力。例如已经有不少高端存储芯片厂商成功流片集成了神经网络数据单元存算一体芯片，但这并不不代表存内计算卖出了一大步。例如，这种解决方案是否支持横向扩展还是只能做DAS模式；又或是FTL层对于并发线程的内存一致性的维护、安全等问题，都在待解。

存储，谋变向未来！

通过对CXL\DRAM\SSD等为代表的存储堆栈及其周边需求的一些梳理，我们不难看出，如今存储系统的主要问题，已经从驱动器本身的系统瓶颈解决，转向主机与驱动器和主机IO堆栈及其系统之间互联的综合应用瓶颈的突破。这种各个存储堆栈上“数据流转墙”的出现，阻碍了新兴存储的性能创新在交付最终用户时的真正的创新价值，延长了存储产商的从原型商业设计到客户应用的商业周期。

如今，用户可能需要他们的存储系统的原生设计可能更为贴近他们的现实应用。例如，存储工程师可能成功将更高速的PCIe设备来解决用户DNN负载的内存不足问题，而忽略了PCIe本身设计对用户成本的浪费。PCIe标准原生定义的TX和RX引脚带宽是1:1，而大多数工作负载的数据读写表现并非如此。这意味着，当用户的R:W比率是3:1时，在这种原生存储设计下，读带宽很容易成为瓶颈，同时写带宽也未得到充分利用。

存储厂商们，若是不能看到用户对系统的真正需求，不能匹配客户对于数字化转型下的真正的心智增长，盲目努力的创新则意味着是加速着自己终结。

几乎每一个存储销售，在向客户推荐的时候都免不了会引用数据爆发增长的那些令人泛起焦虑的数据。例如，IDC数据显示，2019年全球存储新装机容量从EB级达到ZB级，2025年全球新创建的数据将达到175ZB。这种高速的数据增长自然是存储厂商们乐于可见的抢占市场空间的巨大动力，但海量数据增长下掩映的也是客户的各种应用对数据“挖掘”应用的差异化需求的海量增长，这直接表现出来的可能就是算力规模的大幅增长。例如，华为预估2030年相比2020年，AI爆发带来的算力需求将增长500倍。这也为存储厂商们创造着更为巨大的挑战。

在大数据的古早时代，Greg Papadopolous还是SUN CTO的时候就认识到：“处理器的性能每18个月翻一番，而客户的数据存储每5个月翻一番，并且希望一夜之间‘挖掘’这些数据来塑造他们的业务实践。”事到如今，哪怕是这“一夜之间”的延迟需求，正在预示着存储产业界在应对新业态的用户需求下，迎来新的洗牌。

当前，很多新的创业团队由于没有历史包袱，让他们在存储创新上对于打破墨守成规表现得更有勇气。

例如，很多团队敢于采用新型忆阻器 ReRAM来追求在存储一体上取得突破。由于这类电阻式存储的存储细胞单元的交叉网络与神经网络在模拟神经突触连接有类似的方式，如今利用这些工具的神经形态系统正在受到更多关注。考虑到数据中心面向高性能计算和高端服务器应用而设计的多核处理器已经越发增多（如Intel Xeon Sierra Forest -144 cores），但多核系统常见的设计选择是减少LLC的容量（如Genoa到 Bergamo时LL减半为2MB/core），这可能导致系统应用在加载时争用存储带宽的问题变得更为显著。为此有团队表现得更为激进，期望利用CXL对DIMM的完全取代，已达到更高的带宽和更更少的带宽争用效果，认为这可能对如今在数据密集型的混合业务上会有更多帮助。有的团队注意到Optane这种新材质的表现市场还未充分发掘，用了多个 Optane SSDs打造的系统在关键任务存储IO基准中实现了更为优秀的性价比，创造出了SPC-1 benchmark新的记录。

……

长江后浪推前浪，世上新人赶旧人。可与预见，新的存储世界才刚刚开始！

让我们拭目以待，泰裤辣！