太平洋科技企业站

AI时代用CPU做大模型推理更具性价比？

轻聊整合编辑：冯伟- 发布于：2024-03-23 10:34

面向人工智能英特尔再提速

“人工智能+”不仅是一个科技业界的现象级热词，还被写进了2024年《政府工作报告》。对此，全球范围内多种调研结果显示，有近6成的企业在近期会将生成式AI导入到自身生产经营中；预计到2026年，有超过3000亿美元将被投入到生成式AI当中，包括硬件、软件、以及解决方案等。超过50%以上的边缘应用也将采用AI技术；到2028年有80%以上的PC都将转换成AIPC；有80%以上的公司，会在2026年之前引入生成式AI以提高生产力。

英特尔市场营销集团副总裁、中国区数据中心销售总经理兼中国区运营商销售总经理庄秉翰表示：“英特尔在2023年底发布了第五代英特尔至强可扩展处理器，与上一代产品相比，在内核数量和不同的性能指标上都有了很大提升，通过引入AI相关的AMX、AVX指令集，对于一些生成式AI的应用有了很大帮助。”

除了处理器本身的性能提升之外，英特尔还持续地扩展在软件生态上的投入，目前已经上传了300+的深度学习模型到开源社区，进一步加大对主流大模型、生成式AI模型框架，如PyTorch和TensorFlow等的投入，让使用PyTorch和TensorFlow开发的资产，可以无缝拓展至英特尔至强可扩展处理器上。基于软硬件的优化，第五代至强相比第四代至强，在AI训练、实时推理、批量推理等方面，基于不同算法都有着一定的性能提升，最高可达到40%。这些数据提升，已经被阿里云、百度云等合作伙伴进行了充分的验证。

“整体来看，如会议纪要、大纲总结、内容分析、以及部分内容创作，尤其是当下火热的文生图、机器人客服、代码撰写等生产力提升的应用中，使用通用算力，尤其是基于第五代至强的结果还是具备一定优势。”庄秉翰对此总结道。

再次奏响滴答滴英特尔全方位提高CPU竞争力

英特尔在短短一年内连发两代至强产品，在如此快速的产品迭代中，英特尔又是如何大幅度提升了第五代至强产品的性能？

同为Intel7制程产品，第五代至强相比上一代产品在系统漏电流控制和动态电容两方面做出了改进，使得第五代至强在同等功耗下频率可以提升3%，其中漏电流控制部分贡献了2.5%，动态电容则贡献了0.5%。

在芯片布局方面，第五代至强将第四代至强采用的四芯片封装改为两芯片封装，这不仅减少了芯片互联之间的接口数量，也降低了随之而来的额外功耗开销。

在性能与能效方面，第五代至强升级到Raptor Cove核心，内核数量增加至64核，LLC大小从1.875MB增加到5MB，DDR速度从4800MT/S提高到5600MT/S，UPI速度从16GT/S提升至20GT/S，并可以通过主动空闲模式将待机功耗降低。

64核的第五代至强拥有高达320M的三级缓存（LLC），当用户的数据集规模不大时，大部分的数据都可以放在LLC缓存中，减少对内存的访问，从而大幅度提高性能。

对此，英特尔资深技术专家做了进一步说明：“提高缓存不仅仅是简单的资源堆积，当缓存提高之后通常会面临可靠性的问题。因为在大规模数据中心里，存在一种软故障，是指多样因素形成的比特反转，既容量越大反转概率越大，当错误数量增多到无法纠正的时候，就会导致系统宕机。英特尔针对这一问题，在LLC中采用了新的编码方式，相比传统单位纠错和两位检错有了更强的纠错能力，从而极大的提升系统的容错性。此外，面对大缓存带来的额外能源开销，也尽可能的降低每次访问需要唤醒的数据阵列，从而达到节能的效果。”

关于内存IO，在现有第四代产品的基板和PCB上实现更高的速度支持并不容易，英特尔做出了包括金属-绝缘层-金属（Metal-Insulator-Metal, MIM）的内存、基板上走线的提升，以及片上的低噪声的供电措施等方面的优化。

“在性能能效部分，相比第四代至强，在SPEC指标下，第五代至强整数计算性能提升了21%，针对AI负载，其性能提升了42%。”正如大家所熟知的英特尔tick-tock模式，第五代产品是在采用相同工艺情况下，由以上五部分的改进获得了综合全面的提升。

GPU不是AI的唯一解

云计算解决的首要问题就是“资源池化“，从计算资源池、存储资源池、软件定义网络、再之后的内容资源池、以及Serverless架构，执行逻辑和执行单元进一步分离，所有的资源都在进行池化。“这些动作其目的都指向了规模化经营，即将资源整合，从而最大化地应用底层硬件能力。”英特尔资深技术专家对于十数年来的技术发展总结道。

那么客户的挑战到底是什么？在云计算时代就是压榨资源，即效率为重。工作负载需要快速运行，底层硬件能力需要充分利用。对于云厂商而言，真正的核心竞争力之一在于实例的性价比，这不仅是是为客户节省成本，也能提高自身收益。

如今，我们所处的AI时代，一台GPU服务器高达上万瓦的功耗，面对日益增多的数据中心，其可持续性既是一大挑战。如何提高能效？

“对于英特尔来说，一直致力于底层的端到端优化。在过去的十年中，英特尔致力于构建一个完备的生态，通过软硬件结合帮助生态合作伙伴们充分挖掘和利用底层CPU的能力。”英特尔资深技术专家对此举例说道，比如第五代至强L3缓存的增加，其受益最大的便是数据库应用，在某些场景中，单单L3缓存的增加就可以显著提升数据库性能；内核数量的增加，受益最大的则是科学计算和大数据应用；而在AI当中，AMX加速器专门针对矩阵运算可以大幅度提升效率，而AMX和内核之间通过英特尔UPI通道互联，也比PCIe通道速度更快。

“CPU像是一个十八般武艺样样精通的大侠，而GPU更像是一个由军人组成的高效军队。”英特尔资深专家对此总结道：“英特尔始终致力于在CPU上部署AI，并基于OpenVINO对整个模型进行优化、量化。包括推荐、语音识别、图像识别、基因测序等，英特尔均做了大量的优化。”而在一些推理实例中，尤其是CPU与内存频繁交互的场景下，CPU方案通常都有着更高的效率。而通过分布式CPU方案来实现大模型推理也给了用户在GPU方案外的第二选择。尤其是在业务发展初期，GPU方案的利用率可能远不如想象中的高，CPU不失为一种更经济的选择。

按部就班延续摩尔定律

在国家可持续发展战略的助推下，未来针对底层能源的利用率将成为企业最大的优势，资源转化率将是竞争力的决定性因素。而摩尔定律背后的经济学效益无疑在第五代至强可扩展处理器上持续显现着。值得一提的是，英特尔方面对于此前规划的产品路线图按期交付充满了信心。“我们此后将会陆续推出P-core（性能核）和E-core（能效核）处理器，其中P-core着重整体性能的提升，而E-core则着重每瓦特带来的性能提升。”

英特尔 Intel

轻聊

原创栏目