亚马逊云携手英伟达,合作推AI基础设施
·亚马逊云科技(AWS)成为第一家在云端配备英伟达GH200 Grace Hopper超级芯片的云厂商,并将在其平台上推出英伟达DGX Cloud NVIDIA AI“训练即服务”。两家公司将合作推出Project Ceiba,构建全球最快的GPU驱动的AI超级计算机。
·云计算领域正在经历一场激烈的霸主争夺战,AWS和微软处于这场竞争的最前沿,两者都在定制芯片上下了功夫,也都采取了某种“双管齐下”的思路:既推出自研芯片,也同时提供英伟达最新AI芯片这样的可选项。
太平洋时间11月28日,亚马逊云科技(Amazon Web service,AWS)在美国拉斯维加斯举办的2023 re:Invent全球大会上宣布,与英伟达扩大战略合作,将联合推出先进的基础设施、软件及服务,推动客户在生成式AI(Generative AI)的创新。
AWS还宣布推出专为训练人工智能系统而设计的第二代芯片Trainium2,以及通用Graviton4处理器。
云计算领域正在经历一场激烈的霸主争夺战,AWS和微软处于这场竞争的最前沿,两者都在定制芯片上下了功夫,也都采取了某种“双管齐下”的思路。
首家在云端配备英伟达GH200
亚马逊云科技首席执行官亚当·塞利普斯基(Adam Selipsky)表示,“亚马逊云科技与英伟达合作已经超过13年,我们的合作起源于推出全球首个配置GPU(图形处理器)的云端实例。现在我们推出最广泛的英伟达GPU解决方案,可用于各种工作负载,包括绘图、游戏、HPC高性能计算、机器学习,直到现在的生成式AI。”
英伟达创始人兼首席执行官黄仁勋也穿着标志性皮衣出现在发布会现场,他在与塞利普斯基对话时说,“生成式AI正改变各种云端负载,为多元内容创作在底层注入加速计算动能。我们的共同目标是为每个客户提供具有成本效益的先进生成式AI,为此英伟达与亚马逊云科技在整个计算堆栈展开合作,横跨AI基础设施、加速库(acceleration libraries)、基础模型以及生成式AI服务。”
双方将英伟达与亚马逊云科技技术优势相结合,为训练基础模型和构建生成式AI应用提供理想环境,具体包含英伟达新一代GPU、CPU(中央处理器)与AI软件的最新多节点系统,以及亚马逊云科技的Nitro System先进虚拟化与安全平台、Elastic Fabric Adapter(EFA)互连技术和UltraCluster(超大规模集群)扩展能力。
亚马逊云科技与英伟达此次扩大合作主要包括四个方面:
·亚马逊云科技成为第一家在云端配备英伟达GH200 Grace Hopper超级芯片的云厂商。英伟达GH200 NVL32多节点平台为运用英伟达NVLink与NVSwitch技术连接32个Grace Hopper Superchips组成的实例。此平台将在Amazon Elastic Compute Cloud(Amazon EC2)实例上可用,与亚马逊的网络相连,由虚拟化(Amazon Nitro System)及超大规模集群(Amazon EC2 UltraClusters)提供支持,让共同客户能扩展至数千个GH200超级芯片。
·在亚马逊云科技平台上将推出英伟达DGX Cloud NVIDIA AI“训练即服务(AI-training-as-a-service)”。此服务将是首个配置GH200 NVL32的DGX Cloud,为开发者提供单一实例中最多的共享内存。在亚马逊云科技上运行的DGX Cloud将加速训练含有超过1兆参数的尖端生成式AI与大型语言模型。
·英伟达与亚马逊云科技合作推动Project Ceiba,构建全球最快的GPU驱动的AI超级计算机,这是一个配备GH200 NVL32与Amazon EFA互连技术的大规模系统,该系统部署在亚马逊云科技上,为英伟达研发团队提供服务。该超级计算机将前所未有地配置16384颗英伟达H200超级芯片,能处理65 exaflops(衡量超级计算机性能的单位,每秒浮点运算可达一百亿亿次)速度等级的AI运算,英伟达使用该超级计算机推动其全新生成式AI的创新。
·亚马逊云科技将推出三款Amazon EC2实例:P5e实例配置英伟达H200 Tensor Core GPUs,针对大规模与尖端生成式AI及HPC高性能运算工作负载;分别配置英伟达L4 GPUs与英伟达L40S GPUs的G6与G6e实例,可运行包括AI微调、推理、绘图以及影片工作负载等广泛应用。G6e实例特别适用于开发3D工作流程、数字孪生、以及其他使用英伟达Omniverse的应用,用来连结与构建各种生成式AI的3D应用。
据塞利普斯基透露,亚马逊云科技正运用英伟达NeMo框架训练新一代大语言模型Amazon Titan。Amazon Robotics也已开始借助英伟达Omniverse Isaac打造数字孪生,在虚拟化环境中推动自主仓库的自动化、优化以及规划,完成之后再部署到真实环境。
最新自研芯片Trainium2和Graviton4
据塞利普斯基介绍,Trainium2的性能是其前身(2020年12月推出的第一代Trainium)的四倍,能源效率是其前身的两倍。10万个Trainium芯片可提供65 exaflops的计算能力,相当于每个芯片可提供650 teraflops(每秒执行一万亿次浮点运算)的计算能力。
AWS表示,由10万个Trainium芯片组成的集群可以在数周而不是数月内训练出3000亿参数的大语言模型,这大约是OpenAI的大语言模型GPT-3大小的1.75倍。
据AWS介绍,初创公司Databricks和OpenAI竞争对手Anthropic计划使用新的Trainium2芯片构建模型。但AWS没有透露AWS客户何时可以使用Trainium2实例,只是表述为“明年某个时候”。
亚马逊云科技计算和网络副总裁大卫·布朗(David Brown)表示:“芯片是用户所有工作负载的基础……Graviton4是我们在短短五年推出的这一系列的第四代,是我们至今功能最强大和最具能效的芯片。”
AWS发布的第二款芯片是基于Arm架构的自研服务器CPU芯片Graviton4,旨在用于推理。据塞利普斯基介绍,与在Amazon EC2上运行的上一代Graviton处理器Graviton3相比,Graviton4的计算性能提高了30%,核心数量增加了50%,内存带宽增加了75%。
由Graviton4支持的R8g实例已推出预览版,AWS客户目前已可以开始测试该处理器,该实例计划在未来几个月内全面上市。
云计算霸主的“双管齐下”思路
云计算领域正在经历一场激烈的霸主争夺战,AWS和微软处于这场竞争的最前沿,两家巨头都在定制芯片上进行了大量投资。
定制芯片本质上也是对当下生成式人工智能火热,大模型训练和运行所需GPU短缺的应对。据巴伦周刊此前报道,英伟达性能最好的芯片的交付已排到2024年。为了减少对GPU的依赖,有能力负担得起GPU的公司正在开发定制芯片,用于创建、迭代和产品化大模型。
从微软和AWS两个云计算厂商可以观察到一种“双管齐下”的思路:既推出自研芯片,也同时提供英伟达最新AI芯片这样的可选项。此次亚马逊云科技在推出自己推理训练芯片的同时,也提供对英伟达最新AI芯片H200的访问。11月初,微软也采取了类似的思路,推出了首款人工智能芯片Maia 100,并表示微软云(Azure)将配备英伟达H200 GPU。
除此之外,值得注意的是,AWS也展示了其在量子计算领域的一些最新进展,其中包括最新的量子纠错硬件设计,这种新的架构有望用更少的超导组件来产生可控的逻辑量子比特,从而为超大规模量子计算机的构建铺平道路。
分享1 |