正在阅读：意料中的惊喜 64核第二代EPYC服务器性能测试体验意料中的惊喜 64核第二代EPYC服务器性能测试体验

2020-01-09 16:04 出处：PConline原创作者：张垞责任编辑：sunziyi

　　大刀阔斧，构建理想的Rome

　　Rome，即是横跨千年的罗马共和国（帝国），亦是当时世界上最恢宏的都城，汇集了所有人对于璀璨城市的所有美好想象。斗兽场、元老院议事堂、凯旋门、罗马广场……都是这座辉煌都城的名片。

　　而在找到前进方向之后，AMD也同样在Rome架构上进行了大刀阔斧的进化革新，力图将Naples打下的基业进一步扩展，以此成为进军数据中心市场核心应用的主力。

　　对于Rome，AMD的定位非常明确——大型数据中心里的主流应用平台。换句话说，Rome的进化势必是瞄准大规模虚拟化应用的。

　　而要想在这一领域建功立业，AMD需要在已有的内存带宽优势之上再获得两方面的成功：一是互联架构、二是单核心性能。

　　在互联架构层面，想要改变Naples的表现，AMD必须找到全新的途径。因为Rome的计算Die数量提升了一倍，达到了8个，不但互联复杂度大幅提高，继续增加每个晶片（AMD称之为Core Complex Die——CCD）上Infinity Fabric的数量还会增加晶片的面积。对于已经成为Fabless的AMD来说，这会带来成本的上升（尤其是在AMD已经为每4个Rome核心配备了16MB L3的情况下）；要么损害利润率，要么损害性价比，都是得不偿失的做法。

　　然而，AMD借由更大胆的Chiplets设计找到了提升互联效率的全新方法。

　　通过在Core die之外构建一个功能更强大的IOD（IO die）并将每个CCD与IOD相连（这样，每个CCD上只需设计一个Infinity Fabric结构即可。其中的区别在于使用7nm制造的CCD由TSMC供应，成本更高，对良率也更敏感；而14nm工艺制造的IOD成本相对较低，工艺也较为成熟，GF即可提供。因此，把对功耗等7nm工艺优势项目不敏感的结构尽量放在成本更低的14nm IOD上就成为了更合理的选择），AMD可以有效减少socket间互联的复杂情况，大幅提升核心之间的互联效率。当然，这种相对简单的互联情况也更符合当前的企业软件设计风格，优化起来也更简单。

　　这张图片则更明确的说明了Rome相对于Naples在互联架构上的提升。相对于Naples，新的Rome只有两个NUMA域和两种NUMA距离

Naples的NUMA节点互联距离示意

Rome的NUMA节点互联距离示意

　　　　从上面的node（每个node相当于一个die，node 0即可理解为die 0）距离测试中，我们不难发现，虽然Rome与Naples同样有着三种node距离，但Rome的node外、socket内距离相比Naples有着明显的降低。严格的说，新的Rome也存在三种节点距离，但同一socket之上的两种距离10和12已经非常近似，因此可以看成是同一种节点距离；而这显然是设计一个独立的全功能IO die的最大好处之一。如果各个node之间发生通讯的概率相同，那么新的Rome架构在通讯效率上相比之前的Naples理论上会有11.4%的提升。

　　　　至于前面提到的：为什么会把NUMA1与NUMA3中有直连总线的情况也与需要跳转通讯的情况归为一类。由于所有通讯都需要借助独立在每个socket上的IO die来完成，所以是否有直连总线在实际通讯时也都需要两个socket上的IO die共同参与。这也与我们在测试中看到的“node 0与node 4-7通讯距离同为32”的测试结果相符。显然，无论是Rome还是更早的Naples，互联距离情况的简化都是非常明显的，这比Intel的总线连接情况要好不少。