首页 > 企业站 > 企业站_资讯眼> 正文

谷歌TPU v5e AI芯片首次亮相

zhangxinxin 责任编辑:wangkeyue 发布于:2023-09-06 10:43

英伟达GPU的主导地位促使企业争相寻找非GPU的替代品,另一个主流选择是谷歌的TPU v5e人工智能芯片。

TPU v5e也是谷歌首款主流化的人工智能芯片,它配备了一套软件和工具,用于在虚拟环境中大规模协调人工智能工作负载。这款人工智能芯片现在向谷歌云客户提供了预览版。

新的人工智能芯片继承了上一代TPUv4,该芯片用于训练用于谷歌搜索,地图和在线生产力应用程序的较新的PaLM和PaLM 2大型语言模型。

谷歌经常将其TPU与英伟达的GPU进行比较,但对TPU v5e的发布持谨慎态度。谷歌强调,它专注于为客户提供各种人工智能芯片,在A3超级计算机中使用英伟达的H100 GPU,在推理和训练中使用TPU v5e。

Cloud TPU v5e也是谷歌在美国以外推出的第一款人工智能芯片。TPUv4仅在北美销售。TPU v5e电脑将安装在荷兰的EMEA(欧洲、中东和非洲)市场和新加坡的亚太市场。

TPU v5出现以来一直备受争议。谷歌的研究人员于2021年6月非正式发布了TPU-v5,并在一篇论文中表示,该芯片采用了人工智能设计。谷歌声称,人工智能代理比人类专家在不到6小时的时间内完成了芯片的布局规划。谷歌内部对论文中的说法进行了辩论,在论文发表在《自然》杂志之前,谷歌解雇了一名研究人员。

学术研究人员也对谷歌的说法提出了批评,并批评该公司没有公开接受公众监督。来自加州大学圣地亚哥分校的研究人员Andrew B. Kahng后来对谷歌的芯片设计技术进行了逆向工程,发现人类芯片设计师和自动化工具有时比谷歌的人工智能技术更快。

谷歌一直对这一争议保持沉默,但已采取行动,并正在围绕TPU建立一个人工智能帝国。该公司的大语言模型经过优化,可以在TPU上运行,随着该公司在产品线中注入人工智能功能,新芯片对谷歌的数据中心至关重要。

性能数字表明TPU v5e适合于推理而不是训练。该芯片提供的INT8芯片的峰值性能为每秒393万亿次浮点运算,优于TPU v4的每秒275万亿次浮点运算。

但TPU v5e在BF16上的表现很差,每秒197万亿次浮点运算低于TPU v4的275万亿次浮点运算。

但是当TPU v5e连接在集群中时,其性能可能会优于TPU v4。TPU v4可以配置在4,096个芯片的集群中,但TPU v5e可以扩展到数百或数千个配置,并处理更大的训练和推理模型。

谷歌云主管Amin Vahdat和Mark Lohmeyer在一篇博客文章中表示,“TPU v4的最大切片大小为3072个芯片”,而不是之前声称的4096个芯片。但在TPU v5e中,该公司引入了一种名为“多片”(Multislice)的技术,可以将数十万多个人工智能芯片联网成一个集群。

谷歌高管表示,Multislice“允许用户轻松扩展人工智能模型,超越物理TPU pod的界限——多达数万个云TPU v5e或TPU v4芯片。”

谷歌还为TPU v5e优化了虚拟机,使芯片可以同时处理多个虚拟机。谷歌宣布为Cloud TPU v5e和v4提供Kubernetes服务,这将有助于协调跨TPU的人工智能工作负载。

谷歌表示,最大的配置可以在256个TPU v5e集群上部署64个虚拟机。TPU与机器学习框架一起工作,包括Pytorch, JAX和TensorFlow。

还具有令人难以置信的多功能性,支持八种不同的虚拟机配置,从一个芯片到单个切片内超过250个芯片。该功能允许客户选择正确的配置,以服务于各种LLM和gen AI模型尺寸,”谷歌高管写道。

每个TPU v5e芯片有四个矩阵乘法单元、一个矢量和一个标量处理单元,它们都连接到HBM2存储器。

谷歌的数据中心有一个可换入、可换出的高带宽基础设施,配有连接人工智能芯片和集群的光交换机。光互连允许每个机架独立运行并在飞行中相互连接,并且技术允许谷歌根据应用程序快速重新配置网络拓扑。

Google提供了与TPU v4基于成本的有趣性能比较。基准是对训练成本和模型大小的实际假设。微软(Microsoft)和谷歌(Google)正在向其数据中心基础设施投资数十亿美元,以便企业能够训练和部署更大的人工智能模型。

对于每一美元,TPU v5e的训练速度提高了两倍,推理速度提高了2.5倍。TPU v5e每芯片小时的价格为1.2美元,而TPU v4每芯片小时的价格约为3.2美元。

谷歌高管在博客中表示:“TPU v5e的成本不到TPU v4的一半,使更多的组织能够训练和部署更大、更复杂的人工智能模型。”

谷歌在其网站上分享了TPU v5e配置,分为训练和推理页面。

谷歌在其网站上表示,该训练模型用于“转换、文本到图像和卷积神经网络(CNN)的训练、微调和服务”。

谷歌另外宣布,搭载多达2.6万个英伟达H100 GPU的A3超级计算机将于下月全面上市。A3是为使用大规模大语言模型的公司设计的,包括金融、制药和工程公司。

研究公司SemiAnalysis在8月27日的一篇文章中提到,谷歌的TPU计算基础设施是它的王牌。这篇文章主要针对的是“GPU穷人”,也就是那些没有准备好使用GPU的公司。这篇帖子引起了OpenAI首席执行官萨姆·奥特曼的回应,他写道:“难以置信的是,谷歌让那个叫SemiAnalysis的家伙发布了他们的内部营销/招聘图表,哈哈。”双方的交流主要是友好的玩笑,没有严重的拳打脚踢。

OpenAI的基础设施充满了GPU,这在一定程度上要归功于微软的人工智能基础设施,后者在英伟达的图形芯片上投入了双倍的资金。云计算提供商要想使用英伟达的A100和H100 GPU,就要收取相当高的费用。但与微软不同的是,谷歌并没有把鸡蛋放在一个篮子里,增加TPU可以提供多种价位的人工智能产品。

亚马逊AWS还整合了其自主研发的Trainium和Inferentia芯片,用于培训和推理。英特尔的人工智能芯片有10亿美元的订单,其中包括Gaudi2和Gaudi3芯片。

原文《Google TPU v5e AI Chip Debuts after Controversial Origins 》

TPU v5e   谷歌   AI芯片
zhangxinxin

网友评论

聚超值•精选

相关推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部