新闻电脑和电脑

谷歌宣布与NVIDIA H100 gpu A3超级计算机

实现最先进的人工智能(AI)和机器学习(ML)模型需要大量的计算,两种训练底层模型,这些模型一旦训练。鉴于这些工作负载的要求,一个放之四海而皆准的方法是不够的——你需要基础设施,对人工智能的专用。

与我们的合作伙伴一起,我们提供广泛的计算选择毫升用例等大型语言模型(llm),生成AI和扩散模型。最近,我们宣布G2 vm,成为第一个云提供服务的新核心gpu NVIDIA L4张量生成人工智能工作负载。今天,我们扩大投资组合与私营预览发布下一代A3 GPU的超级计算机。谷歌云现在提供了一个完整的训练的GPU的选择范围和ML的推理模型。

谷歌计算引擎A3超级计算机是专门的培训和服务要求最高的人工智能模型,今天的生殖AI和大型语言模式创新。我们A3 vm结合NVIDIA H100张量核心gpu和谷歌领先的网络发展为各种规模的客户服务:

  • A3是第一个使用专门设计的200 Gbps IPUs GPU实例,与GPU-to-GPU数据传输绕过CPU主机和流动在不同的接口与其他虚拟机网络和数据流量。这使得10倍相比,网络带宽A2 vm,尾巴较低延迟、高带宽的稳定性。
  • 我们木星industry-unique智能数据中心网络结构扩展到成千上万的高度相互关联的gpu和允许全部带宽可重构光学链接,可以根据需要调整拓扑。几乎每一个工作负载结构,我们实现工作负载的带宽和更昂贵的现成的非阻塞网络面料,导致较低的TCO。
  • A3超级计算机的规模提供了多达26 exaflop AI性能,极大地提高了培训的时间和成本的大量毫升模型。

随着公司从培训服务他们的ML模式过渡,A3 VM也适合强推理工作负载,看到了30 x推理性能提升相比A2 VM的NVIDIA GPU A100张量的核心动力的*。

专用的性能和规模
A3 GPU vm是专门提供今天的ML性能最高的培训工作负载,配有现代CPU,改善主机内存,下一代NVIDIA GPU和主要的网络升级。这里是A3的关键特性:

  • 8 H100利用NVIDIA gpu的料斗架构,提供3 x吞吐量计算
  • 3.6 TB / s bisectional带宽A3 8之间通过NVIDIA gpu NVSwitch和NVLink 4.0
  • 下一代4日创Intel Xeon处理器可伸缩
  • 通过4800 MHz DDR5 2 TB的主机内存容量
  • 10倍大的网络带宽由我们hardware-enabled IPUs,专门的服务器间GPU通信堆栈和NCCL优化

A3 GPU vm是向前迈出的一步为客户开发最先进的ML模式。毫升的大大加快培训和推理模型,A3 vm使企业培训更多复杂的ML模型速度快,为我们的客户创造一个机会来构建大型语言模型(llm),生成AI和扩散模型来帮助优化操作和在竞争中保持领先。

这个声明是建立在我们的伙伴关系与NVIDIA GPU提供全方位的选择为客户培训和ML的推理模型。

“谷歌云的A3 vm,由下一代NVIDIA H100 gpu,将加速生成人工智能应用程序的培训和服务,”伊恩·巴克说,超大型的副总裁,在NVIDIA高性能计算。“谷歌的云最近推出了G2的实例,我们骄傲与谷歌云继续我们的工作,帮助改变世界各地企业专用人工智能基础设施。”

全面管理人工智能基础设施优化的性能和成本
为客户寻求开发复杂的ML模型没有维护,您可以部署A3 vm顶点AI,构建毫升一个端到端的平台模型全面管理基础设施专用的低延迟和高性能的培训服务。今天,2023年的Google I / O大会上,我们很高兴建立在这些产品都打开生成顶点AI人工智能支持更多的顾客,并通过引入新的功能和基础模型。

为客户寻找建筑师自己的定制软件栈,客户也可以A3 vm部署在谷歌Kubernetes引擎(GKE)和计算引擎,这样你就可以培训和提供最新的基础模型,在享受支持自动定量、工作负载编排和自动升级。

“谷歌云的A3 VM实例为我们提供的计算能力和规模要求最高训练和推理工作负载。我们期待人工智能空间的利用他们的专业知识和领导在大规模基础设施提供一个强大的平台,我们毫升工作负载。首席执行官”诺姆Shazeer Character.AI

谷歌的云,人工智能是在我们的DNA。我们应用几十年的经验为AI进行全球范围内计算。我们设计的基础设施规模和优化运行各种各样的人工智能工作负载——现在,我们将其提供给你。

相关的帖子

留下你的评论

*通过这种形式你同意由本网站数据的储存和处理。

这个网站使用Akismet来减少垃圾邮件。学习如何处理你的评论数据

这个网站使用cookie来提高你的经验。我们假设你是好的,但是如果你愿意的话,你可以选择退出。接受阅读更多