正在阅读：顶级赛场中的列强争霸——以可视化数据解读超算TOP500榜单顶级赛场中的列强争霸——以可视化数据解读超算TOP500榜单

2019-07-01 15:23 出处：PConline原创作者：张垞责任编辑：zhangcha1

【PConline杂谈】每年6月和11月，TOP500榜单的发布是IT圈里固定的大事件。在这个国家实力和IT技术的角力场上，一家又一家公司、一台又一台超算不断刷新着人类技术和工程能力的巅峰。6月17日，2019年上半年TOP500榜单在德国举办的国际超算大会ISC上发布。

超算TOP3风采

IBM Summit

站在榜单顶点的仍旧是由IBM建造的Summit，Linpack峰值性能达到148.6PFlop/s，整机功率10MW，操作系统为红帽企业版，能效比为14.719GFlop/w，是整个TOP500榜单中第二高的存在（能效排名第一是日本超算Shoubu System B，能效17.604GFlop/w）。Summit拥有4608个IBM AC922节点，每节点搭载两颗IBM POWER9 22核心处理器、3.07GHz，每节点系统内存512GB，每节点存储1.6TB；同时，每个节点还拥有6块NVIDIA Tesla V100加速卡；单节点算力42TFlop/s。Summit的CPU-GPU通讯采用NVLink总线，而节点之间的通讯则使用100G Infiniband。Summit的CPU和GPU核心均采用水冷散热，整个散热系统每分钟流量超过15000升。Summit坐落于田纳西州橡树岭国家实验室，隶属于美国能源部科学部门。

IBM Sierra

排名第二的是来自IBM的Sierra，可以看成是Summit的姊妹系统，Linpack性能94.64 PFlop/s，整机功率7.438MW，操作系统同为红帽企业版，能效比为12.723GFlop/s，亦是超算排行榜中名列前茅的能效先锋。Sierra拥有4320个IBM S922LC OpenPOWER节点，采用主频为3.1GHz的22核心POWER9处理器，每节点搭载4块NVIDIA Tesla V100 GPU。内部CPU-GPU通讯仍旧采用NVLink总线，而节点间通讯则采用EDR Infiniband。Sierra隶属于美国能源部国家核安全管理局的劳伦斯利弗莫尔国家实验室，主力研究方向是弹道导弹及核爆模拟。

江南计算所神威·太湖之光

排名第三的则是来自中国、由江南计算所研制的神威·太湖之光，Linpack性能93TFlop/s，总功率15.37MW，能效为6.051GFlop/W。与前两名的集群架构不同，神威·太湖之光采用了MPP架构，CPU为自研的260核众合架构申威SW26010处理器，RISC架构，指令集是脱胎于Alpha 64的自研指令集，运行频率1.45GHz，没有采用GPU或其他协处理器。神威·太湖之光坐落于国家超算中芯无锡中心，隶属于中国国家并行计算机工程技术研究中心。

细读TOP500榜单

每次TOP500都会发布详尽的榜单，包含系统名称、性能、配置、隶属机构、用途、国家等众多信息。不过为了更好的从榜单中看清趋势，我们还是需要将各类数据进行可视化处理。

TOP500年度（年中）平均算力演化

从2010年一路走来，TOP500榜单中的超算平均算力已经从当年的65TFlop/s逐渐增长为目前的3120TFlop/s，10年增长48倍。不过2019年属于超算算力进步的小年，平均算力较上年增长只有28.8%。在2011、2012、2013、2016、2018这种超算大年中，平均算力增长都会超过50%（2012年最夸张，平均算力较上年增长超过100%）。不过即便如此，今年榜单仍旧淘汰了去年的252台超算。也就是说，去年同期能够排到248名的1026TFlop/s曙光Pvideo-A超算，今年只能排在垫底的499名。

TOP100年度（年中）平均算力演化

再看更高端的TOP100，今年平均算力增长幅度为22%，但平均算力已经达到了9833TFlop/s，预计下半年的榜单可以轻松突破10000TFlop/s。

TOP500榜单国家入围数

在国家入围超算台数方面，中国依旧一骑绝尘，总数达到了219台，相比2018年6月榜单，数量增加了9台。按照这个趋势发展下去，过不了几年中国超算就将占据TOP500的半壁江山。排在中国之后的则是美国的116台和日本的29台。欧洲则基本占据了第二集团，英法德等国分别有十几台上榜超算。

TOP500榜单国家入围数（欧盟）

当然，如果我们把欧盟诸国算成一个整体的话，那么欧盟整体将以96台上榜的成绩排名第三，与美国差距大大缩小。

TOP100榜单国家入围数

但是来到更加高精尖的TOP100榜单，情况则完全不同。在TOP100排行当中，美国以37套形成了孤独的第一集团，日本则以15套排名第二，德国和中国都有9套上榜分列三四（德国平均排名比中国靠前）。从TOP100的排名中我们也可以发现，中国新建超算多以中小型（相对而言）超算居多，TOP级大型超算仍旧落后于美日等传统超算强国。

TOP100榜单国家入围数（欧盟）

如果将欧盟算作一个整体，那么其30套的TOP100入围数量则足以与美国分庭抗礼，日本则只能屈居第三。

TOP500榜单国家算力汇总

看完了上榜数量我们再来看看质量。美国以榜单中总计600105TFlops的算力排在了当之无愧的第一，中国则以465852TFlops合计算力排名第二。从图表中可以看出，中美两国已经大幅领先其他国家。不过，中国在TOP500中的总算力相比美国仍旧落后不少，只有美国的77.6%；而这还是再超算数量超过美国50%的情况下取得的成绩。

TOP100国家算力

在TOP100榜单国家算力排行中，中国位置有所提升，虽然距离美国恐怖的482959TFlops算力相去甚远，但已经能够从入围数量的排名第四上升到排名第二，TOP100总算力为173650TFLops，是美国TOP100算力的36%。

TOP500入围国家超算总能耗

与超算算力的排名类似，美国虽然入围超算数量要远远落后于中国，但美国入围的产品都是大型超算，因此，不仅在算力上超越中国，更在能耗上也超越中国。不过，中国虽然在总算力上只有美国的77.6%，但能耗则只有美国的71.3%。说明中国超算在总体能效上要略微超过美国（但是由于中国入围超算多排在榜单的后半段，更新频繁，所以上榜超算都是最近一年的新建系统，能效更高也理所应当）。

TOP500榜单处理器分布

从处理器分布来看，英特尔Broadwell架构的至强v4系列以227台的数量成为了TOP500中的绝对主力。排名第二的则是至强的第一代可扩展处理器Skylake，第三名则是至强v3系列的Haswell架构。当然，除了占绝对主力的各代Intel至强处理器之外，POWER系列处理器还占据了13席、SPARC 64占据4席位，AMD处理器占3席。更特别的是，除了脱胎于Alpha 64的众核架构神威处理器之外，TOP500还上榜了一台使用Cavium ARM处理器的超算。这台超算是排名第156位的Astra，该系统节点采用HPE Apollo 70，处理器是来自Cavium的ThunderX2 CN9975-2000，这是一颗28核心2GHz处理器，没有采用额外的加速卡。整个超算包含2466个双路节点，使用100G Infiniband网络互连，功耗和能效数据未知，因此也不好判断目前ARM架构是否会比x86或者POWER更高。

TOP500榜单互联架构

在互联架构方面，以太网仍旧是超算互联架构的绝对主力，达到了271台，相比2018年6月榜单的247台还有所增加。在以太网中，10GbE仍旧是主流，达到190台，比去年同期还要多20台。这显然与单节点算力持续增加有很大关系（随着单节点算力的增加，很多上榜超算已经不需要太多节点，普通的10GbE也能承载互联需求）。另一方面，高性能网络中的绝对主力Infiniband占比正在缓慢下降，从去年的139台下降为今年的125台。同时，定制互联架构（商业化的定制互联架构，例如Cray的Aries interconnect、Bull的BXI、国防科技大学的TH-Express2、江南计算所的神威互联架构等）的占比从去年同期的68台下降为今年的51台。而专有互联架构更是从去年的7台降为今年的4台（基本上已经是专指富士通的Tofu interconnect 2了）。不过，作为Infiniband主要竞争对手的OmniPath份额则在缓慢上升，从去年的39台增加为今年的49台。这显然与Intel的主推、相对更低廉的价格有很大关系。

TOP500加速器、协处理器汇总

虽然加速卡能够在很大程度上提升超算的性能、能效，但受限于计算类型，加速卡仍然不是超算的主流，500台超算中部署了加速卡的超算只有133台，还不到总数的1/3；不过相对于2018年6月的110台，我们还是能看到加速卡在顶级超算中的应用势头正在缓慢增长。

在已经部署加速卡的机型中，NVIDIA则是绝对主流。而在Tesla众多型号中，价格昂贵的V100和P100成为了当仁不让的宠儿，装机量分别达到了52台和46台。已经进入停产计划的Intel Xeon Phi协处理器则只占到了5席。

TOP100加速器、协处理器汇总

在更高端的TOP100中，加速卡仍旧只占到32席，不到总数的1/3。除了NVIDIA Tesla V100、P100这些常客之外，我们还能看到一个特殊的存在——天河2A采用的Matrix-2000加速卡。

2016年，美国以“怀疑被用于核爆模拟”为由将国家超级计算天津、广州、长沙中心和国防科技大学列入限制出口名单。此后，为了摆脱美国禁令的限制，当年的天河2号进行了升级，将之前使用的KC架构Xeon Phi协处理器换成了由国防科技大学研发的Matrix 2000。

对于这块加速卡，相关专家对其的定义是general-purpose DSP，也就是用途更广泛的DSP。按照外界对国防科大芯片技术路线的推断，Matrix 2000很可能使用的是经过魔改的ARM核心，具备128个物理核心，制程未知（从发布时间点来推测是TSMC 28nm制程），封装之后的芯片面积为66x66mm，使用PCI-E 3.0 x16总线与系统连接。芯片内部包含4个SuperNode，每个SN包含32个核心，SN内部采用名为FIT的点对点内部互联架构，带宽25.6GB/s，环路延迟20ns；每个SN包含8个节点，每节点包含4个计算核心以及共享的DCU和Cache；每个SN拥有两个独立的DDR4-2400内存控制器（SN对应的内存容量有8GB和16GB两种）。Matrix 2000运行频率1.2GHz，支持双精度和单精度浮点运算（不支持半精度），每时钟周期可执行16个双精度运算，双精度时性能为2.458GFlop/s，单精度性能翻倍，TDP240W（早期产品运行频率1.0GHz，TDP200W）。

在用Matrix 2000替换Xeon Phi之后，天河2号更名为天河2A，性能从之前的33682.7TFlops提升为61444.5TFlops。虽然升级之后节点总数从之前的16000增加到17792个，但性能提升却达到了81.45%；可见Matrix 2000的性能还是相当了得的。

TOP500操作系统统计

从操作系统层面来看，TOP500榜单已经被各种版本的Linux全部占领，之前的AIX等操作系统彻底消失。虽然有将近一半的系统并没有提供具体的Linux版本号，但从之后的排名来看，常见的Red Hat、SUSE、CentOS、Ubentu等公开发行版一应俱全。当然，还有很多超算使用了Cray、Bull、Penguin等制造商的魔改版Linux。

TOP500制造商

从超算制造商来看，联想、浪潮、曙光分别以173台、71台和63台的数量霸占了榜单的前三名，三家合计达到307台，占比超过60%。HPE（SGI）、CRAY等超算领域老牌劲旅则只能以40和39台的数量屈居第二集团（去年同期HPE还能以79台的数量在榜单中排名第二，而CRAY去年也还有53台的装机量；联想、浪潮、曙光三家去年同期合计也只有240台的装机量）。总体来看，与企业基础架构领域的情况类似，超算系统也开始呈现出明显的向头部集中的趋势；而值得庆幸的是，超算中的头部企业都来自于中国。

中国超算成就辉煌，但前途布满荆棘

自从2010年中国的天河1A第一次夺得TOP500冠军之时起，中国IT圈乃至中国社会也对这个注定属于小圈子的榜单产生了浓厚的兴趣。在这之后，天河2号、神威太湖之光的相继问，则让国人的对于超算的关注发展到了顶点。

但自从2016年美国将中国众多超算研究、制造及使用机构列入禁运名单之后，美国便开始了对中国超算领域的持续压制。在ISC大会举办期间，美国再次将包括曙光、江南计算所在内的超算制造、研究单位列入实体名单，这无疑会对中国的超算发展带来一定冲击。

这两年，中国TOP10以内的新超算出现频率降低，这是因为中国正在全力备战百亿亿次计算。目前，中国同时准备了三套E级计算系统，分属不同技术路线——国防科大/国家超算天津中心共同主导的天河3号（使用Matrix 200+）、曙光领衔的x86路线（使用海光处理器，但三家海光公司均被列入实体名单）、江南计算所主导的神威系列超算（众核架构、ARM处理器）。三套系统将在2021-2022年之间集中亮相，不过，在几乎相同的时间段里，美国、欧盟、日本的E级超算也将集体亮相。届时超算领域将再次迎来一场龙争虎斗的高速发展时期。