首页 > 企业站 > 企业站_资讯眼> 正文

只使用3000个GPU就能训练一个ChatGPT?

佚名 整合编辑: 王珂玥 发布于:2024-01-08 08:24

橡树岭国家实验室的研究人员在Frontier超级计算机上训练了一个与ChatGPT大小相当的大型语言模型(LLM),只需要37.888个GPU中的3,072个就可以完成。该团队发表了一篇研究论文,详细介绍了他们是如何实现这一壮举的,以及他们在此过程中面临的挑战。

这台Frontier超级计算机配备了9472个Epyc 7A53 cpu和37888个Radeon Instinct GPU。然而,该团队只使用了3072个GPU来训练一个具有1万亿个参数的LLM,使用了1024个GPU来训练另一个具有1750亿个参数的LLM。

该论文指出,训练如此大型的LLM的关键挑战是所需的内存量,至少为14TB。这意味着需要使用多个带有64GB VRAM的MI250X.但这引入了一个新问题::并行性。在LLM上投入更多的GPU需要越来越好的通信才能有效地使用更多的资源。否则,大部分或全部额外的GPU能力将被浪费掉。

研究报告深入研究了这些计算机工程师是如何做到这一点的细节,但简短的版本是,他们迭代了像Megatron-DeepSpeed和FSDP这样的框架,改变了一些东西,以便训练程序在Frontier上运行得更优。最后,结果非常令人印象深刻——弱扩展效率达到100%,这基本上意味着随着工作负载的增加,更多的GPU被尽可能有效地使用。

同时,1750亿参数LLM的强缩放效率略低,为89%,1万亿参数LLM为87%。强可伸缩性指的是在不改变工作负载大小的情况下增加处理器数量,根据Amdahl定律,这往往是高核心数量变得不那么有用的地方。考虑到他们使用了多少GPU,甚至87%也是一个不错的结果。

然而,该团队注意到在Frontier上实现这种效率的一些问题,指出“需要更多的工作来探索AMD gpu上的高效训练性能,而ROCm平台是稀疏的。”正如论文所说,这种规模的大多数机器学习都是在英伟达的CUDA硬件软件生态系统中完成的,相比之下,AMD和英特尔的解决方案并不发达。当然,这样的努力将促进这些生态系统的发展。

尽管如此,世界上最快的超级计算机仍然是Frontier,它的硬件全是AMD的。第二名是Aurora,它采用的是纯英特尔硬件,包括GPU,尽管目前只有一半的硬件用于基准测试。英伟达GPU为第三快的超级计算机Eagle提供动力。如果AMD和英特尔想要保持目前的排名,这两家公司将需要赶上英伟达的软件解决方案。

原文《Frontier trained a ChatGPT-sized large language model with only 3.000 of its 37.888 Radeon GPUs — the world's fastest supercomputer blasts through one trillion parameter model with only 8 percent of its MI250X GPUs》

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部