首页 > 企业站 > 企业站_资讯眼> 正文

2024年的数据中心芯片

佚名 整合编辑: 王珂玥 发布于:2024-01-15 14:31

就数据中心芯片而言,新的一年将是我们一段时间以来看到的最重要的一年。每个主要的芯片公司都计划在未来12个月内更新他们的CPU和/或GPU产品线。

英伟达计划在2024年推出一系列新的加速器、GPU架构和网络套件。英特尔将推出可以说是多年来最引人注目的至强处理器,同时推出新的Habana Gaudi AI芯片。与此同时,凭借MI300系列产品的推出,AMD也计划将其第五代Epyc处理器推向市场。

让我们来看看2024年发布的一些更大的数据中心芯片,排名不分先后。

英伟达搭载HBM3e的H200人工智能芯片面世

2024年上市的首批新芯片将是英伟达的H200加速器。这款GPU基本上是H100的升级版。

你可能期望最新的芯片提供比它的老兄弟的性能提升,但它不会是传统意义上提升。深入了解规格表,你将看到浮点性能与H100相同。相反,该部件的性能提升——英伟达声称LLM(包括Llama 70B)的性能提高了一倍——归功于芯片的HBM3e内存堆栈。

我们认为H200将提供高达141GB的HBM3e内存,这对于高达4.8TB/s的带宽来说是很好的。随着LLM(如Meta的Llama 2、Falcon 40B、Stable Diffusion等)的普及,内存容量和带宽对推理性能产生了巨大的影响,即单个加速器或服务器可以容纳多大的模型,以及可以同时处理多少请求。

正如我们最近在分析AMD和英伟达的基准测试失败时所探索的那样,在这类人工智能工作负载中,FLOPS远不如内存容量和带宽重要。

Hopper的替代品是“Blackwell”架构

根据2023年的一份投资者报告,H200不会是我们在2024年看到的英伟达唯一的GPU。为了巩固其领导地位,英伟达正在转变为每年发布新芯片的节奏,我们从Team Green看到的第一个新部件将是B100.

正如我们所理解的,这里的“B”是微架构名称Blackwell的缩写,大概是向美国统计学家David Blackwell致敬。除了它将在2024年到来之外,我们对这部分还知之甚少。

就目前而言,AMD新推出的MI300X GPU不仅比H200驱动更多的FLOPS,而且具有更多更快的内存来启动。我们无法想象英伟达会对此感到高兴,尤其是考虑到这家美国巨头最近的防御能力。正因为如此,我们完全期望B100能够提供更多的FLOPS和更多的HBM3e堆栈,这将把加速器的内存容量和带宽推向新的高度。

除了GPU本身,英伟达的路线图还包括更多名为GB200和GB200NVL的CPU-GPU超级芯片。这些处理器是否会继续使用目前Grace和Grace-Hopper超级芯片中基于Arm Neoverse V2的CPU内核,或者它们是否会采用一些下一代核心,还有待观察。

然后是B40.从历史上看,这类型的卡目标是可以在单个GPU内运行的小型企业工作负载。该部件将取代L40和L40S,并将英伟达的企业GPU产品线整合到一个整体架构下。

可以说,英伟达加速路线图中最有趣的部分与网络有关。英伟达希望通过Blackwell实现800Gb/s的连接,尽管正如我们之前探讨的那样,由于PCIe 5.0远远不够快,PCIe 6.0还有一段路要走,这带来了一些独特的挑战。

我们什么时候能看到这些Blackwell的卡还悬而未决,但是,如果历史可以借鉴的话,我们可能不用等那么久。英伟达在加速器正式上市前几个月(有时甚至是几年)就提前发布加速器的做法由来已久。

英伟达在2022年初就推出了Grace-Hopper超级芯片,但据我们所知,这些部件直到现在才进入客户手中。所以,我们可以在GTC之前有更多的关于Blackwell细节的了解。

英特尔在新年之际推出了自己的全新加速器

与加速器的话题保持一致,英特尔计划在2024年的某个时候发布其第三代Gaudi AI芯片。

这部分很重要,因为随着Ponte Vecchio的继任者Rialto Bridge的取消,哈瓦那实验室的Gaudi3代表了英特尔在人工智能训练和推理领域所能提供的最好的技术——至少在2025年Falcon Shores到来之前。

虽然英伟达和AMD习惯在几个月里大肆宣传他们的产品发布,但英特尔对这部分却格外守口如瓶。到目前为止,我们看到的大部分内容都来自这张幻灯片,至少从9月份的创新活动开始,苹果就一直在展示这张幻灯片:

该幻灯片声称,5nm芯片Gaudi3将具有7nm版本Gaudi2的4倍Brain Float 16 (BF16)性能,加上两倍的网络带宽和1.5倍的HBM带宽。

通常这些数字会给我们一个推断相对表现数字的起点。不幸的是,要做到这一点,英特尔必须告诉我们Gaudi2的BF16性能到底是什么。我们问过了,他们不想谈论这个问题,尽管他们声称Gaudi3改进了4倍。相反,英特尔希望将重点放在实际性能上,而不是基准比较上。

坦率地说,这是一个令人困惑的营销决策,因为如果没有参考框架,这种说法本质上毫无意义。此外,从外观上看,x86巨头这次使用了8个HBM堆栈,而不是6个。

除了Gaudi3.我们被告知将有一个版本的Gaudi2调低-再次-为中国市场(保持在美国对国家出口限制的正确一边),英特尔声称它将在英伟达传闻中的H20芯片进入中国大陆之前发货。

英特尔加入云CPU干部与Sierra Forest

与此同时,在CPU方面,英特尔计划在2024年推出双重功能,将使用延迟已久的英特尔3制程技术。需要明确的是,英特尔并没有突然跳到3nm。该公司多年来一直在研究这个节点,它过去称之为7nm。它最终被重新命名为英特尔4和英特尔3.以使其在营销方面更接近竞争节点的晶体管密度。

我们将在2024年上半年获得第一款基于英特尔3的至强处理器。该芯片代号为Sierra Forest,可以配备一对144核的芯片,每个插槽总共有288个CPU内核。当然,这些内核与我们在过去的xeon中看到的不同。它们是英特尔高效核心架构的演变,早在2021年,随着Alder Lake的推出,该架构就开始出现在PC和笔记本电脑处理器中。

不过,虽然这些芯片通常都配有一组性能核心,但Sierra Forest全是e核,旨在与Ampere、AMD以及AWS和微软等云提供商部署的大量定制Arm cpu竞争。

英特尔声称的优势是,它可以在一个插槽或机箱中封装比其他任何人都多的内核,同时保持与大多数x86二进制文件的兼容性。我们说大多数是因为e核没有和过去的xeon相同的功能集。

两个最大的区别是完全缺乏AVX512和高级矩阵扩展(AMX)支持。这里的论点是,我们在云中广泛部署的许多工作负载——比如Nginx——不一定能从这些特性中受益,因此,与其将大量的die空间用于大型向量和矩阵计算,不如将这些空间用于在每个die上打包更多的内核。

然而,并不是每个芯片厂都同意这种做法。AMD在2023年春季推出的Bergamo Epycs采用了截然不同的方法。这些服务器处理器使用了AMD Zen 4核心的紧凑版本Zen 4c,它以时钟速度换取了更小的占用空间。这使得AMD可以在不牺牲功能的情况下,将128个内核打包到每个处理器包的8个计算模块中。

这两种方法都有其优点。根据虚拟机管理程序的不同,缺乏某些CPU特性可能会导致将工作负载从一个机器迁移到另一个机器时出现问题。英特尔希望通过AVX10来克服这个问题,我们在夏天对AVX10进行了深入研究。简而言之,它的设计是为了支持许多更有吸引力的功能,如FP16和BF16的支持,从AVX512到AVX2.其结果是,除非您确实需要512位宽的向量寄存器,否则您不太可能遇到这种迁移问题。

英特尔专注于Granite Rapids

接下来是鲜为人知的领域,英特尔的Granite Rapids Xeon将于2024年晚些时候推出。Sierra Forest优先考虑小内核的负载,而Granite Rapids是一款更传统的Xeon服务器处理器,围绕x86巨头的性能内核构建。

我们仍然不知道它会有多少核心,也不知道顶部的部分会有多快,但我们被告知它会比Emerald Rapids更强。我们确实知道,该芯片将采用比Sapphire 或 Emerald Rapids更模块化的chiplet架构,每个封装最多有五个die——三个计算和两个I/O。

根据SKU的不同,这款芯片将配备或多或少的计算芯片,使英特尔能够利用AMD多年来一直享有的模块化优势。之前2023年的Xeon要么有一个大的中等核数(MCC) die,要么有两个大的(Emerald)或四个小的(Sapphire)计算die,即所谓的“极限核数(XCC) die”。

英特尔的下一代至强处理器将I/O功能分解成一对夹在计算机中间的die。这些I/O die很重要,因为它们有助于缩小与AMD的差距,后者在过去五年中不仅拥有核心数量优势,而且通常提供更多、更快的PCIe通道和内存通道。

正如我们在2023年的Hot Chips会议上了解到的那样,Granite Rapids将配备12个内存通道——与AMD的Epyc 4相同——并将支持8800 MT/s的MCR DIMM。MCR相当酷,因为它允许芯片提供845GB/s的内存带宽。这还不及英特尔第4代至强Max的板载HBM所能达到的1TB/s的速度,但MCR DIMM将接近并允许更高的容量。

该芯片家族还将支持多达136个PCIe / CXL通道,尽管只有PCIe 5.0速度。PCIe 6.0可能会在2024年推出,但赶不上英特尔的“下一代”Xeon处理器。

AMD的Zen 5来了

当然,AMD将推出Turin,这是它的第五代Epyc服务器处理器,由新的Zen 5内核驱动。在这一点上,除了它将在2024年的某个时候到来之外,我们对这一部分没有太多可说的。

考虑到时间,我们可以做一些假设。我们打赌该芯片将在其计算块中使用台积电的4nm或3nm工艺技术,但很难说I/O芯片是否会缩小工艺。

除此之外,我们只能指出,最近通过Xitter泄漏的分享表明,AMD可能再次提高其产品线的核心数量。如果泄露的消息属实,我们可能会看到Epyc处理器拥有128个Zen 5核或192个Zen 5c核。

核心复合芯片(core complex dies,ccd)本身似乎与Genoa和Bergamo相比没有太大变化,每个芯片分别有8个或16个核心。据报道,AMD将在其通用平台上使用16个计算die,在以云为中心的平台上使用12个计算die来实现其声称的核心数量。话虽如此,我们还是拭目以待,看看泄露的消息是否准确。

近年来,AMD的Eypc产品线变得越来越复杂,现在涵盖了通用、高性能计算、云和边缘应用。AMD通常在一年左右的时间里推出这些芯片。Epyc 4于2022年11月发布,Bergamo和Genoa-X于2023年6月抵达,其聚焦边缘的Siena部件直到9月才出现。

等待惊喜

需要明确的是,这绝不是2024年数据中心处理器的详尽列表。我们完全期待在未来的12个月里会有更多的惊喜,特别是随着人工智能的炒作速度加快,云提供商继续拥抱定制芯片。

微软最近开始涉足自定义人工智能和CPU领域,而谷歌已经有了几代张量处理单元,并有传言称正在开发自己的CPU。

我们还将关注Arm在推动其Neoverse核心架构和计算子系统(CSS) IP堆栈方面的努力。后者是我们在现代所见过的最接近Arm自己设计完整处理器的产品。

还有一大批半导体初创公司,如Ampere、Graphcore、Cerebras、SambaNova、Groq等,都希望在人工智能的新世界秩序中占据一席之地。在2024年,我们不会惊讶地看到这些供应商中的任何一家生产出新的硅、产品和系统。

原文/《2024 sure looks like an exciting year for datacenter silicon》

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部