首页 > 企业站 > 企业站_资讯眼> 正文

亚马逊云科技是怎么到Next Level的?

Asgardia 编辑:王珂玥 发布于:2024-06-11 13:44 PConline原创

笔者有个朋友是IT经销商,最近生意有着明显的波动,他认为原因很大一部分是AI闹的。如今,大模型越来越多,很多企业都期望试水些业务用上。朋友的IT设备买卖就需要很多偏向AI能力的设备。麻烦的是,AI在企业业务上的应用在业界仍是一个较新的尝试。对此,客户往往并不清楚什么设备合适,可能计算、存储、网络都需要面向AI来定义,就更别提作为经销商的朋友就客户的业务给出合适的方案了。另外,由此导致的朋友生意的供应链也有了很多不确定性。对此,他确实很困惑。

为此,笔者建议他可以去参加一下这次亚马逊云科技的中国峰会,看一看云计算服务商是如何响应AI服务能力的,对他来说或许会有启发,尤其是亚马逊云科技大中华区产品部总经理陈晓建和亚马逊云科技大中华区解决方案架构总经理代闻在5月30上午主会场的分享。

当天,陈晓建的分享主要是从亚马逊云科技的产品如何适应企业生成式AI业务来谈的,并宣布了诸多重大服务在亚马逊云科技系统上的首次登录。代闻的分享则更侧重一种解读,重点解读作为全球顶级云服务商的亚马逊云科技是如何依靠“变与不变的”创新,让云科技是如何在“Next Level”——AI时代焕发新生命力的。

构建企业生成式AI业务的现代化数字基座

陈晓建谈到当下AI业务的构建者来说是绝佳时机,“因为今天我们所有人都有幸处在下一个技术变革的伟大时代。我们每个人的创新,都将对世界产生深远的影响,改变行业,甚至改变人类的生活。因此,当您在了解到亚马逊云科技的这些工具、产品、解决方案和合作伙伴后,我想你们会想知道如何利用好这些开发应用程序。”

亚马逊云科技对生成式AI从三层技术栈进行赋能。

底层:托管服务SageMaker、英伟达GPU集群Ceiba、自研加速器芯片

Amazon SageMaker是一个完全托管的亚马逊云科技服务,如今迎来一个重大更新,陈晓建宣布百川智能和零一万物基础模型登陆中国区域SageMaker JumpStart。Amazon SageMaker Jumpstart可以帮助客户获取,微调和部署来自学术界和工业界的最新公开可用的预训练基础模型,包括Meta Llama3.Cohere Command以及来自Hugging Face的开源模型等。作为首批登陆中国区域SageMaker JumpStart的中文基础模型,Baichuan2和Yi-1.5将与亚马逊云科技托管服务深度集成,助力中国企业应用一流的生成式AI技术实现本土创新与业务转型。

Ceiba,这是英伟达和亚马逊云科技一起创立的GPU超级集群项目。Ceiba 是由英伟达和亚马逊云科技联合开展的,搭载超过2万个英伟达最新的Grace架构Blackwell 200 超级芯片和第四代EFA 网络,每个超级芯片可提供高达800 Gbps 的网络带宽,其AI算力将能达到惊人的414 exaflops。除此之外,亚马逊云科技中国区域正式推出基于英伟达A10G GPU 的Amazon EC2 G5 实例,以帮助中国区的客户运行生成式AI工作负载提供更好的性价比。

在过去的五年里,亚马逊云科技在定制芯片领域的投资带来了机器学习训练和推理成本的大幅下降,其中,基于Amazon Trainium的Trn1 EC2实例和基于Amazon Inferentia芯片的Inf2 EC2实例,与类似的基于英伟达GPU的Amazon EC2实例相比,可分别将训练成本降低高达50%(Trn1),推理成本降低高达40%(Inf2)。

中间层:Bedrock,使用基础模型加速生成式AI 应用构建

Amazon Bedrock支持模型选择、模型定制、应用集成和负责任AI四大差异化价值。通过Bedrock,客户可以轻松访问和评估最新的基础模型,快速构建和部署生成式AI应用。例如,Claude 3、Llama 3和Cohere的Command R模型都可以在Bedrock上使用,满足不同应用场景的需求。

Amazon Bedrock还提供了自定义模型导入功能Custom Model Import for Amazon Bedrock,企业可以将基于Llama, Mistral和Flan-T5开发的定制模型导入到Bedrock之中,以完全托管的API方式进行访问。

陈晓建指出,Bedrock为生成式AI的构建提供了前所未有的多样性和灵活性,让客户可以根据不同的业务需求选择合适的模型。

顶层:开箱即用的生成式AI应用

在顶层,亚马逊云科技提供了开箱即用的生成式AI应用,如Amazon Q Developer和Amazon Q Business,目前均已正式可用。这些应用无需专业知识即可快速上手,帮助企业加速软件开发、改进业务流程。陈晓建强调,这些工具和解决方案旨在让每一个现代化企业都能够利用生成式AI的力量,推动业务创新和转型。

亚马逊云科技创新的“变与不变”

代闻分享了亚马逊云科技技术架构演进过程中不变的三大原则,是:基础组件能力决定了架构设计,架构体系创新拓展核心能力,多元技术融合驱动架构创新。并谈到,“我们应该看清变化的技术和不变的需求,积极推进架构演进,连接未来的想象。”

基础组件能力决定了架构设计

作为以服务好外包算力为核心的云服务商,显然有提升算力服务的巨大发展动力。作为全球化的领先的云服务商,亚马逊云科技这一巨大动力率先在云服务基础设施上有了惊人表现,通过创新基础组件,不仅服务能力获得巨大提升,也可以更多让渡客户价值。

例如,作为捐献者的你,看到受捐组织公布账目时其管理费用超于预期你会怀疑自己的爱心被打了折扣。作为云租户的你,看到云服务商的服务时你也许会有种担心,而担心就来自于云服务网络上频繁通信而产生的各种开销,这种开销可能会挤占你的使用成本。

对此,亚马逊云科技率先发起的基础组件变革就是从卸载会挤占用户带宽的虚拟化服务开始的。

代闻在会场展示一张EC2发挥的路线图,从2006年到2017年是一条平缓曲线,至2017年EC2实例增加到70个类型。而从2017年开始,曲线斜率明显增加,至2023年EC2实例类型飙涨至750个以上。

EC2从2017年的转折,正是开始于那年AWS Nitro的登场。Nitro开始的最有价值创新在于把服务后端网络和远程存储工作负载卸载到了Nitro硬件上,后来将安全、管理和监控也卸载到了硬件上,从而将主机算力近乎100%地提供给客户,并且进一步加强了虚拟化的安全。

从Nitro开始,云计算服务开创了将业务和管理在物理上完全隔离之路。亚马逊云科技已经发布了五代Nitro芯片,不断获得更低的延迟、更高的吞吐量以及每秒处理更多数据包的能力。在最新的Nitro 平台支持下,单个虚拟机的最大IOPS 可以到400K,存储带宽可以到100Gbps。

Nitro的成功带动的革新是多方面的,尤其是亚马逊云科技在之后更加敢于创新性的自研设备,而摆脱标准化的商品IT设备的掣肘。

例如,随着Nitro创新,Amazon EC2 C3系列虚拟机的带宽可以到单机6.4Tbps,充分挑战了传统的TCP网络传输协议、数据中心路由协议的效率,新的网络传输协议SRD(Scalable Reliable Datagram)和数据中心路由协议SIDR(Scalable Intent Driven Routing)便在亚马逊云科技不断扩大的大规模数据中心中得到落地。

代闻介绍,基于Nitro 创新带来的服务器网络性能提升,结合新的数据传输协议和路由协议,亚马逊云科技得以建成超大规模数据中心网络UltraCluster。它支持的GPU实例可以到两万台,如果使用亚马逊自研的机器学习训练Trn1实例,可以支持扩展到三万个Trainium 加速器。

架构体系创新拓展核心能力

基础组件带动的生产力的极大提升,势必给生产关系的变革孕育了巨大空间。通过代闻的介绍,不难看出这些年亚马逊云科技服务水平的提升,现在显然在“解耦”与“重构”方面下了十足的功夫。

诸多商业史上的巨大成功都与“解耦”与“重构”有着莫大关系。最初冒险家出海谈探险时资金来源是国家投资,后期通过变成普通资本家的股份,“解耦”了探险风险对一个人的绑定,通过重构资本关系最后发展出了有价证券产业;共享单车通过解耦车辆的使用权与所有权,重构商业模式繁荣了道路交通,等等。

通过“解耦”有利于让风险隔离在更小的域内,而“重构”则可以让服务可以在细分领域开拓新的局面。

这些表现在云服务上,则是服务在韧性、弹性与效率上的巨大收益。

韧性方面,亚马逊云科技在尽力地将其服务解耦为控制平面和数据平面,控制平面负责按需求布置执行策略,数据平面则负责策略的具体任务执行。在具体执行层面,则是将任务进一步做到分布式处理。

代闻用Amazon IAM来举例。该服务用于确保AWS服务和资源的安全访问,例如在创建SageMaker实例时候会有“创建IAM角色”选项,这样只有授权人员才能访问在模型训练过程中访问S3数据。IAM控制平面让需求者基于身份,而不是具体的人,来验证和授权,这样做的显著好处是你可以访问者更为细粒度的授权,以方便适应其在不同场景下的权限规则。在数据平面任务上做单元架构(Cell-based Architecture),即让同一工作负载可以拥有多个实例(每个实例即为一个单元),IAM控制平面会将需求拆分,并将拆分后的需求路由到各个单元中分布式完成。

“显然,这是一个不错的架构设计方法,目的是最小化故障的影响范围,降低‘爆炸半径’。”代闻介绍。“如今,这种单元架构已经应用到了亚马逊云科技云服务全部服务,如Amazon IAM, Amazon EC2. Amazon EBS, Amazon Aurora等,用户可以轻松地将单元架构应用到自己的工作负载。

云服务在弹性与效率上的改善,代闻是围绕无服务器计算(Serverless)来介绍的。而Serverless显然是云计算在“Next Level”中值得称道的另一绝佳案例。

亚马逊云科技早在2014年就推出了无服务器计算平台AWS Lambda,也是无服务器计算平台中发展时间最长也最为成熟。在无服务器开发模式下,使用者无需管理服务器资源,只需编写云函数代码片段,将这种代码片段独立打包在容器中并上传到无服务器计算平台上,实例会自动触发云函数运行的事件。其已经成为各种云原生应用的标配,如今在AI时代这一价值依旧值得重视。例如,将一项AI服务封装为Serverless函数,云平台就可以用托管数以万计的服务实例来快速处理大量用户请求。作为向AI时代云平台的演进,Serverless提供了显著的优势,如弹性、即用即付的成本模型和无资源管理。

亚马逊云科技提供了Firecracker,这是一种基于KVM重新构建的虚拟化服务,可以在非虚拟化环境中启动轻量级微虚拟机(MicroVM),满足Serverless对容器的隔离性、快速启动以及管理的更高要求,提升资源效率和安全性。

考虑到Serverless在从头开始启动新函数实例时总会导致更长延迟,这在函数需要大规模访问时问题会更加严重。对此,亚马逊云科技提供了Amazon Lambda SnapStart,一项函数预加载技术。其考虑在初始化代码阶段从Firecracker快照中预加载导致启动延迟的类,将大量的此类加载相关的延迟从函数处理时加载中进行解耦。亚马逊云科技称,使用Amazon Lambda SnapStart,函数通常可以比之前启动快10倍,并且不需要修改任何代码。

除此之外,代闻还介绍了Caspian (协同资源管理系统),它实现了对Serverless数据库的高效内存管理。在每个Serverless数据库启动时,都预先为数据库虚拟化OS分配物理机全部内存,但是实际使用内容限制为只是数据库所申请的内存大小。后期任一Serverless数据库可以放开阈值至认购的物理机全部内存。

多元技术融合驱动架构创新

大模型在服务现实场景的时候,需要及时弥补特定领域或最新的外部信息来让推理更加符合预期。检索增强生成技术(Retrieval-Augmented Generation, RAG)刚好适应了这一些大模型需求,正在越发受到广泛关注,例如在构建外挂企业知识库方面赢得了业界不小的兴趣。正如其名称一样,该技术可概括为两步:RAG模型首先会利用给定数据源检索出需求文档,然后通过将检索结果和需求问题一起提供给大模型来生成答案。

为此,模型训练所需收集的数据来源可能将会越来越多样。为获得有效的知识,这些数据可能是不同数据结构,来源于不同的IT系统。为此,开发者就需要设计合适的ETL过程来处理数据源的复杂、异构挑战。ETL即提取、转换、加载,涉及从各种来源收集数据并对其进行整合,满足大模型的数据处理库需要的各种数据操作和分布式处理,同时满足可扩展能力。

传统上,ETL过程中通常需要开发人员手动维护日志记录每个步骤的状态,这一方式显然在云上难以为继。为此,亚马逊云科技研发了数据的独立同步,并催生了数据流动自动发生的创新可能——Zero-ETL。

代闻宣布了亚马逊云科技在Zero-ETL技术服务上最新的三项重大更新:包括Amazon Aurora Zero-ETL with Amazon Redshift的亚马逊云科技中国(宁夏)区域正式可用;与Amazon S3的集成;以及可在Amazon DocumentDB文档上高级搜索。截至目前,亚马逊云科技已提供6项Zero-ETL的能力。

相比未来需要针对AI应用来专门构建的数据服务场景,RAG下需求的技术综合多元能力可能不过是沧海一粟。代闻介绍,生成式AI应用的云上的参考架构比过去三层web应用架构和微服务架构是完全不同的,只有专门构建才能在场景上实现最能优化和可持续的最佳体验。如今,亚马逊云科技专门构建了各种数据服务,包括关系型数据库、非关系型数据库、数据仓库,以及各种批式/流式的数据采集和分析服务。

在帮助云架构师为各种应用程序和工作负载构建安全、高性能且高效的弹性基础设施方面,亚马逊云科技有优良架构体系(Well-Architected Framework)可用来评估工作负载。随着客户对各种组件更深入的使用,以及整体应用架构趋向多元技术均衡的结果,该指导评价体系已经从卓越运营、安全、可靠、性能效率四个维度,新增了可持续发展和成本优化,发展为六个维度。

“这么多需求一起摆在面前的时候, 应用架构必须要打开思路, 做出过去从没做过的创新。” 代闻表示。

写在最后

通过陈晓建和代闻的分享不难看出,企业级AI业务对云计算的洗礼不啻于一场全面的技术革新,AI与云科技也在构建新的生产力关系。正是由于亚马逊云科技有能力快速改进软件和硬件堆栈,所以能够在不断提升服务能力的前提下,保持内部全栈创新的灵活性。同时能够了解到使用最多的应用及其资源消耗模式,以此来挑选对用户来说收益最高的技术点来做针对性优化。

当然,AI给IT打开的新局面,对于那个朋友来说会更显得不可思议。例如,当在优良架构体系里可持续成为一种标准,IT设备在性价比、热销,或是最高性能上或不再有绝对优势,这势必引起经销商供应链的新的波动。而云服务丝滑般的演进,乃至之前所说的三层架构的那种“触手可及”,也正是促进国内领先AI项目开发者们与云服务商共同赋能客户生成式AI业务合作的决心。

“每个现代化企业都是数据驱动型企业,而坚实的数据基座除了包括一套全面、集成的服务体系,以及用于端到端数据工作流管理的工具之外,我们今天首先要考虑得,是如何能够更好的使用和支持生成式AI应用的能力。”陈晓建说到。

相信AI及大模型技术,与云计算平台的紧密结合,也将成为未来十年最令人惊喜舞台。而云计算的“Next Level”,不过刚刚开始。

网友评论

聚超值•精选

推荐 手机 笔记本 影像 硬件 家居 商用 企业 出行 未来
二维码 回到顶部