太平洋科技企业站

哎！企业智算深渊如何迈过？

Asgardia 编辑：王珂玥发布于：2024-04-03 15:37 PConline原创

作为国内一家领先的IT系统解决方案服务商，宁畅每次重大事项的推出似乎都要体现“遥遥领先”一下。

在去年年中，业界尚混战破局数据中心液冷，宁畅还在致力于用“次日达”的风转液的唯快不破服务焕新市场竞争格局(可参见文章《数据中心继续用风冷才是最可怕的，宁畅：转液冷可“次日达”》)。半年时间刚过，宁畅却在宣称自己可以hold住整个“AI算力栈”了——3月29日，宁畅发布“全局智算”战略，并揭幕了包括“AI算力栈”在内的一系列战略性新品与系统解决方案，旨在有效解决大模型产业落地的全周期问题。

宁畅总裁秦晓宁解释说：“我们每一次战略的发布，背后都有一套清晰的执行的策略，而且这些策略已经在落地实践后，实现了可大规模推广的可行性，是真实存在的。”

IDC的最新数据表示，2022年全球在AI上的IT总投资规模为超过1300亿美元。其中，企业在现代人工智能堆栈上的花费是这一领域最大的新市场。仅以聚焦生成式AI为例，到2027年IDC预计45%的企业将掌握并使用生成式AI来共同开发数字产品和服务。

AI新能力正在推动企业们去重塑他们的技术堆栈。而从AI出发的技术堆栈的构建也围绕基础设施、工具和方法的融合引出新问题。“AI的硬件层、集群层、中台层、内容层、服务层等等，这些东西在不同的业务场景下实现逻辑很不一样，如何去优化这些设计是很关键的。” 宁畅CTO赵雷解释说。

对此，宁畅的“全局智算”战略将企业大模型落地的全周期管理覆盖为“全体系、全液冷、全服务、全场景、全行业、全阶段”的六个“全” 特性。

“全局智算战略的发布，体现了宁畅可以围绕企业的AI智算建设，涵盖软硬件全体系及全液冷产品，提供从咨询到运维的全流程服务，满足全行业用户大模型开发、适配、部署的全场景需求，并按用户发展阶段，定制专业且性价比高的AI解决方案，通过这一系统工程能力，有效降低AI使用门槛，推动企业人工智能应用的加速落地。” 秦晓宁解释到。

企业智算建设到深渊

无论是从ChatGPT到Claude3.还是从Sora到Suno，某个大模型之王的独领风骚自有其显而易见的明逻辑，但从企业看到的大模型的用武之地，却容易成为被人忽视的暗道理。

在以ChatGPT为代表的人工智能之前的智能开发，企业构建的智算应用需要IT团队从智能模型的构建开始，并涉及数月甚至多年的数据收集、特征工程和训练、运行的繁琐工作。至于之后系统能否作为面向客户的最终产品进行生产，仍存较大未知数。

ChatGPT之后的大模型的火爆，让企业可以看到可以改变此前艰难的局面——AI的开发可以很快go-to-market了，AI应用转向“产品导向”，使没有机器学习专业知识的团队能够将人工智能融入他们的产品中。

现在任何人都可以访问OpenAI或Anthropic的API来立即利用那些世界上最强大的模型。过去需要多年的基础研究和复杂的ML专业知识的任务，现在可以在几天或几周内由开发人员在强大的预训练大模型之上完成数据系统建设。企业更会喜悦于，他们的智算建设可以从产品开始了，而不是模型。

企业可以将重点放在数据层上，将其作为AI应用程序工作的重心，用特定的数据来定制他们的AI体验。为此，企业的智算建设革命将会聚焦于模型级的优化，例如模型路由、微调或是合理的量化，而这些都由基础设施性能、成本和延迟等考虑因素驱动。

“随着企业创建自己的任务特定模型，用于构建机器学习管道和微调的基础设施将在下一阶段变得至关重要，企业智算建设已经走入深水区。” 秦晓宁介绍。“未来，每个公司都有可能需要训练自己的大模型，这刺激了对新基础设施堆栈的需求。宁畅期望，将开发人员从运行应用程序的操作复杂性中解脱出来，支持更快速的迭代，并允许企业通过仅支付计算与可用性的费用，来享受智算的资源优化。”

企业需要一套AI支撑体系来了解AI的当前状态、趋势和挑战

AI的变革潜力正在染指更多行业，从提高医疗保健诊断的准确性，到通过智能聊天机器人优化客户服务等等。企业必须接受人工智能的采用，以便在不断变化的商业环境中来保持竞争力。

为此，企业需要了解AI的当前状态、趋势和挑战，并了解构建和部署可扩展和高效的智算系统的最佳实践。但企业发展大模型的阶段不同，所需要的智能涌现出来的需求不尽相同，从而对于AI支撑能力的要求也千差万别，这些障碍会影响企业充分利用人工智能潜力的能力。

宁畅看到，企业智算应用涉及到了算法、算力、数据三个维度，而智算基础设施的算效、精度和服务方面挑战表现得更为棘手：算效提升会越发依赖超大的算力集群有超强的稳定性;越来越多饿垂直落地的场景，企业需要对模型的精度和效率越发苛刻;AI的产品导向后，如何去确保训练和推理业务之间的软硬件数据等无缝的实时对接的问题，等等。

“不管是万卡时代的算效彩票，还是深入行业的精度盲盒，以及高效调用的服务瓶颈，我们如何建立起一套全面的AI的支撑能力体系，这是我们当下急需要解决的问题。” 秦晓宁介绍。“‘全局智算’顾名思义就是希望以系统的全面性来对抗我们需求的复杂性。”

宁畅的“全局智算”支撑体系可分为六个层面：

最底层为硬件资源层。宁畅可以提供基于商用IT基础设施来构建企业智算的完整硬件资源堆栈，包括以通用服务器、GPU、整机柜、存储、网络等多种形态的硬件产品为主。

第二层是集群设计层。宁畅可以基于企业业务运行特征和系统的量化需求，提供从微架构、网络、存储到AI模型特征等一系列的方案化设计。“例如，不同的模型，不同的业务场景，不同的GPU算力都需要对应不同的网络的传输模式，用低延迟的还是用什么样的，用标准InfiniBand还是RoCE，各有其道理。”赵雷介绍。

第三层是算子优化层。AI算子优化时提升智能化算法效率的关键步骤。宁畅可以提供提高算子对加速器的并行计算优势的利用，减少模型执行的时间，降低资源消耗，提高能效比，使得AI能够在有效的资源上高效运行。

第四层是AI中台层。AI中台旨在将NLP、语音、图像、知识图谱等AI技术能力实现组件化、模块化、可插拔化，并实现对以上层资源能力的集约调用。例如NVIDIA有TensorRT来加速推理，有Isaac Sim可以加速元宇宙的数字仿真开发等。宁畅表示，其已全面支持NVIDIA的中台系统，并打造了自己的中台系统Nex AIOM。

第五层和第六层是业务层和场景层，是宁畅可以依据更加靠近企业的智算业务落地来提供相应的解决方案及服务，包括为企业智算业务提供可观察和可评估能力，以加速企业AI模型的高质量产出。

“我们可以提供从咨询、测试、运维、售后的全服务场景，满足客户从大模型的开发、适配、部署、全场景的全行业的需求，并且我们根据客户发展不同阶段，提供宁畅定制化服务。” 秦晓宁介绍。

几个不容忽视的AI市场结构变化

我们会惊喜于AI在技术上的那些迅速发展。尤其是像宁畅这样，通过“ 全局智算”来将自己定义为企业智算能力落地的关键组成部分。对于人工智能来说，2024年的企业AI将比前一年更有希望，也会让分析机构们的增长预测变得更为可靠。

但不容忽视的，AI能力的市场结构变化也是企业AI可以变得更有期望的组成部分，例如AI能力从云端向边缘侧的流动(W350G50)，AI算力栈的整机柜交付(B8000)，以及可以面向工作流的AI算力定制体验(NEX AI Lab)。

当AI数据可以从云端到边缘的自由流动，也意味着人工智能基础设施的创新可以变得比以往任何时候都更加多样化和广泛。

此次，宁畅同步推出了AI工作站产品W350G50.“我们这个工作站是可以把这服务器或者是数据中心级别的AI算力带到桌面。”赵雷介绍。在这种方式下，AI模型可以直接部署到W350G50上，然后在本地收集和处理数据。这使企业能够在不需要连接到互联网或集中的AI模型的情况下进行推理和开发。

除此之外，宁畅实现了硬件层上更多交付形态的灵活组合。其中，宁畅B8000液冷整机柜服务器也是一大亮点，采用电、液、网三路全盲插设计，“部署周期相较传统方式提升30倍。”

当然，宁畅早已是中国GPU及加速计算服务器市场的领先服务商，硬件级的多样化交付能力也早已是人们的意料之中。但从“全局智算”的“一栈多能”来看，宁畅需更加深入的思考企业AI的软件调优能力，诸如宁畅如何可以实现基于企业业务的算子优化、模型调优能力。

为此，宁畅“全局智算”最大的杀手锏能力可能来自其推出的国内首个AI算力栈宁畅NEX AI Lab(Nettrix AI Open Lab)。该算力栈已在浙江桐乡市成功落地并开放预约试用，用以展现应用场景优化、行业智算定制解决方案，通过免费提供软、硬件服务，带来大模型、数据科学、推荐系统等解决方案工作流的先进体验。

赵雷介绍，该算力栈由X640G50搭配GPU组成，采用的是400G的网络，同时还支持20个节点的X680G55的液冷服务器。“整个算力中心我们已经完成了大量的多元的AI场景的实际应用，包括语言模型、OCR、翻译、智能推荐等，我们都做了初步的测试，实际证明各种各样的应用能够有效地运行。大家可以把自己的业务拿到上面运行，尝试不同的业务组合、不同的网络方案、不同的软件和框架的调整，以便加速投资决策。“

“AIDC应该提供从底层算力到顶层应用使能的全栈能力，并起到聚合产业链上下游企业的作用，通过场景牵引、产业生态协同，让人工智能可以赋能更多行业和企业在更多关键场景中。”北京电子数智科技有限责任公司CMO杨震认为。

模型生态系统在迅速扩展，模型变得越来越大，功能也越来越多。对此，宁畅通过打造NEX AI Lab，可以通过添加企业需要的特性能力，来实现AI系统的内核优化，从而使其不断增强定义、优化和执行新的架构，实现“全局智算”体系的易用性和可扩展性。

面向AI基础设施解决方案的新质生产力

随着AI能力正在变得越来越大、越来越好，它需要的不仅仅是普通商业基础设施，更加需要这些基础设施供应商需要健全在原始计算、数据吞吐量和功耗的巧妙的优化能力。对此市场研究机构Forrester曾对2024年AI基础设施解决方案的评估提供了三个指导意见，以供参考：

1、从工作量出发来考虑解决方案供应。目前虽说人工智能的新方法层出不穷，但人工智能的三个核心工作负载仍然保持不变：数据准备、训练和推理。企业需要为每个工作负载考虑利用不同方式，例如训练与推理工作所需要的能力是不同的，力求最大化核心AI工作负载性能。

2、将基础设施与计算需求相匹配。尽管GPU对GAI的成功至关重要，但它们可能对你的AI战略的成功并不重要。在三个核心AI工作负载中，计算需求差异很大。当涉及到训练工作负载时，计算机视觉和大型语言模型等深度学习模型需要通过云或本地访问针对人工智能优化的芯片，但预测模型可能无法从此类芯片架构中受益。

3、计划如何将新解决方案与现有工具集成。在致力于解决方案之前，企业必须了解如何将供应商的AI基础设施管理层与自己现有的技术基础设施管理工具结合起来。人工智能基础设施配备了管理软件，以帮助运营专业人员监控系统、控制访问、分配使用和配置/解除配置基础设施，以优化成本。如果企业已经对供应商的IT基础设施进行了标准化，那么从管理的角度来看，使用该供应商的AI基础设施可能具有吸引力。

为了加速重大的人工智能创新，企业必须克服上述许多挑战，当这些传统的IT基础设施供应商可以一个坚实的AI体系来支持他们的人工智能战略和创新时候，这会显然会开启一个愉快的人工智能合作之旅。

如今，随着“全局智算”战略的开启，宁畅得以对企业人工智能进入更为深入的研究，包括协调人工智能工作负载的复杂性、管理人工智能系统的协调性，以及人工智能技术发展与市场应用的衔接性等问题，这也成为了宁畅塑造自己的新质生产力之路。

宁畅全局智算人工智能企业智算深渊

Asgardia

原创栏目