近日,美国计算机协会(ACM)公布了SC23的戈登贝尔奖(Gordon Bell Prize)的最终入围名单。戈登贝尔奖授予在世界领先的超级计算机上使用最先进的软件和硬件技术进行的最有价值的科学计算项目。其中采用的硬件平台,来中国的新神威系统,与其它5家世界级系统,成功入选该奖项的决赛。 由于ACM提醒说,最终的系统大小、模拟和模型运行的最终结果尚未完成,而该奖项最终结果将在11月丹佛举行的全球超级计算大会SC23上才正式颁发。但ACM还是对今年的戈登贝尔决赛选手的项目,做了一些简要的披露。 中国的参赛项目是“Towards Exascale Computation for Turbomachinery Flows“,这是一个来自来浙江大学、清华大学、国家超级计算无锡中心、太原理工大学、西交利物浦大学、剑桥大学、佛罗里达大学和伊利诺伊大学厄本那-香槟分校的共20人组成的团队,开发了一个新的大涡模拟代码来解决涡轮机械中的可压缩流动。他们将其应用于NASA的”Grand Challenge Problems“,用高阶非结构化求解器求解高压涡轮叶栅的16.9亿个网格单元和8650亿个自由度。该代码在无锡新型神威超级计算机上进行了计算,该超级计算机每节点的核数高达1920万核,每个计算节点由384个计算核和6个控制核组成。 近十年前,美国国家航空航天局(NASA)提出了一项重大挑战,要求对一台完整的喷气发动机进行随时间变化的模拟,模拟空气动力学和传热。在中国、美国、中国和英国多所大学的工程研究人员的帮助下,新神威系统将用于解决NASA提出的挑战。 幸运的是,国家超级计算无锡中心的研究人员已经将该项目的同名论文《Towards Exascale Computation for Turbomachinery Flows》发布了出来,并将在11月的SC23会议之前正式发布。 文中介绍,我们得知此次参赛的最新一代神威超级计算机的计算能力远远超过其前身(神威太湖之光),这得益于更多的芯片数量和改进的高性能异构多核处理器。该系统由超过100,000个SW26010 pro芯片组成,理论峰值性能为1.5 EFLOPS。与上一代神威“神湖之光”芯片相比,升级后的处理器包括六个核心组(core-group,CG),每个核心组包含一个MPE(management processing element)和一个8×8 CPE(compute processing element)集群,具有16GB DDR4共享内存。每个CPE具有一个扩展到256KB的本地数据存储器(LDM),支持更宽的512位SIMD操作。MPE是一个完整的64位RISC内核,频率为2.1 GHz,而CPE的工作频率为2.25 GHz。 神威加速计算架构(Sunway Accelerate Computing Architecture ,SACA)是最新的神威超级计算机的重要组成部分。SACA包含为神威多核架构量身定制的并行加速计算平台和编程模型。SACA提供了三个级别的并行加速,即任务(MPI)、线程(Athread)和数据(SIMD),从而最大限度地提高系统性能。通过使用直接内存访问(DMA)和寄存器通信,程序员可以显式和有效地控制LDM上的数据交换,这对于最小化CPE的通信成本至关重要。 外媒The next platform的报道称,SW26010 Pro处理器的64个(8 x 8)计算核心网络是一个具有256KB L2高速缓存CPE。每个CPE有四个逻辑块,可以在一对上支持FP64和FP32,在另一对上则可以支持FP16和BF16。SW26010 pro中的每个核心模块上都有一个DDR4内存控制器和16 GB内存,内存带宽为51.4 GB/秒,因此整个处理器有96 GB主内存和307.2 GB/s带宽。六个CPE通过环形互连连接,并有两个网络接口,使用专有互连将它们连接到外部。 芯片的FP64或FP32精度为14.03 PB,BF16或FP16精度为55.3 PB。The next platform报道,Oceanlite(神威太湖之光升级版)最大的配置有107520个节点,共有4193万个核心,分布在105个机柜中。刚刚曝光的论文也证实了该超级计算机的理论峰值性能为1.5 exaflops,MPE内核运行在2.1 GHz,CPW内核运行在2.25 GHz。 如果将该超级计算机规模扩大到120个机柜,在FP64 pervision下的峰值将达到1.72 Exaflops,这将超过美国橡树岭国家实验室的1.68 Exaflops的“Frontier”超级计算机。 在160个机柜的条件下,在FP64的峰值性能将接近2.3 Exaflops,将有望击败已经安装完成的美国能源部阿贡国家实验室的基于英特尔CPU及GPU的新一代超级计算机“Aurora”,以及正在建设的美国劳伦斯·利弗莫尔国家实验室基于AMD MI300芯片的“El Capitan”超级计算机,后两者的FP64性能都将达到 2 Exaflops以上。 |
原创栏目
企业热点
IT百科
网友评论
聚超值•精选