近日,NVIDIA与xAI共同宣布,位于美国田纳西州孟菲斯市的Colossus超级计算机集群已成功部署,成为全球规模最大的AI超级计算机。该集群搭载了令人瞩目的10万颗NVIDIA Hopper GPU,并利用NVIDIA Spectrum-X以太网网络平台,为AI训练提供卓越的性能支持。
Colossus超级计算机集群的部署速度令人惊叹。从项目启动到所有配套设施建成,再到开始训练任务,xAI和NVIDIA仅用了短短122天和19天,这样的速度在传统超级计算机建设领域是前所未有的。Colossus不仅规模庞大,其性能也极为出色,目前正被用于训练xAI的Grok系列大语言模型,以及作为X Premium用户功能之一的聊天机器人。
NVIDIA Spectrum-X以太网网络平台是Colossus成功的关键之一。该平台专为多租户、超大规模的AI工厂设计,采用了RDMA(Remote Direct Memory Access)网络,提供了卓越的性能和稳定性。在训练Grok这种超大型模型时,Colossus实现了空前的网络性能,整个系统未出现任何因流量冲突而造成的应用延迟增加或数据包丢失的情况。凭借Spectrum-X先进的拥塞控制功能,系统数据吞吐量一直保持在95%,这一性能水平是传统以太网在大规模情况下根本无法实现的。
NVIDIA网络高级副总裁Gilad Shainer表示:“AI正变得至关重要,对性能、安全性、可扩展性和成本效益提出了更高的要求。NVIDIA Spectrum-X以太网网络平台专为那些如xAI一样的创新企业提供更快的处理、分析和执行AI工作负载的速度,进而加速AI解决方案的开发、部署和上市。”
xAI发言人对此表示:“xAI构建了全球规模最大、性能最强的超级计算机。借助NVIDIA Hopper GPU和Spectrum-X,我们得以突破大规模AI模型训练的边界,打造基于以太网标准并经过超级加速和优化的AI工厂。”
Colossus超级计算机的成功部署,不仅标志着NVIDIA和xAI在AI技术领域的卓越成就,也预示着未来AI训练和应用的广阔前景。随着数字经济的快速发展,AI已成为不可或缺的生态链环节,而Colossus的出现将进一步推动AI技术的创新和突破,为人类社会带来更多的便利和价值。
以上就是NVIDIA携手xAI打造全球顶尖AI超级计算机Colossus的全部内容了,嗨牛网精心打造,旨在为您呈现一个满载精彩纷呈资讯的宝库,全球前沿资讯、深度剖析行业动态、汇聚热门话题与独特视角,力求为您带来一场场知识与娱乐并重的盛宴。
41.7 MB
点击查看10.3 MB
点击查看15.1 MB
点击查看15.88MB
点击查看9.85MB
点击查看5.24MB
点击查看