2024-7-17 09:50

百模大战,需要标配怎样的万卡?

众所周知,大语言模型的快速发展离不开强大的算力支持,但目前全球范围内算力资源仍然非常有限。即便是财力最雄厚的公司,所拥有的算力也无法满足日益增长的需求。

根据上半年产业链的消息,Llama 38B和70B的训练需要24000多块H100组成的集群;而据称有1.8万亿参数的GPT-4则是在10000—25000张A100的集群上完成的训练;就连参数仅30亿的Sora,也用4200—10500块H100训练了1个月的时间。

这正好印证了摩尔线程创始人张建中日前的一个观点:“在AI模型训练的主战场上,万卡还仅仅只是标配”。7月3日,摩尔线程在AI DAY上宣布了其夸娥(KUAE)万卡智算集群解决方案的重大升级,这不仅是摩尔线程技术创新的里程碑,更是国产GPU技术发展的一次重要飞跃。

万卡智算,无缝扩展

万卡集群指的是由一万张及以上的计算加速卡(如GPU)组成的高性能计算系统,用以训练基础大模型。这种集群充分整合高性能GPU计算、高性能RDMA网络、高性能并行文件存储、智算平台等关键技术,将底层基础设施整合成为一台“超级计算机”,可支持千亿级甚至万亿级参数规模的大模型训练,有助于大幅压缩大模型训练时间,以实现模型能力的快速迭代。

张建中说:“构建万卡集群并非一万张GPU卡的简单堆叠,而是一项高度复杂的超级系统工程。”其面临的主要挑战包括如何实现超大规模组网互联、如何提高集群有效计算效率、保证训练高稳定与高可用以及拥有故障快速定位能力和可诊断工具等。

据张建中介绍,全新一代夸娥智算集群能实现单集群规模超万卡,浮点运算能力达到10Exa-Flops,显存总容量达到PB级,卡间互联总带宽和节点互联总带宽均达到每秒PB级。同时,夸娥万卡集群的平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上,希望可以对标行业最高水准。

此外,在优化方面,夸娥万卡集群通过系统软件、框架、算法等层面的一系列优化,实现了大模型的高效率训练,MFU最高可达60%。此外,夸娥万卡集群是一个通用加速计算平台,支持多种不同架构和模态的大模型,具有高效易用的MUSA编程语言和完整兼容CUDA的能力,加速新模型的迁移和生态适配。

产业协同:共建大模型应用生态

摩尔线程的夸娥万卡智算集群不仅仅是一项技术成果,更是一个产业协同的典范。在AI DAY发布会上,摩尔线程与多家企业进行了战略签约,共同构建国产GPU集群。张建中提到:“我们希望摩尔线程的加速平台能够加速一切计算,只是和计算相关的都可以在上面加速。”

发布会现场,摩尔线程携手中国移动通信集团青海有限公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司(排名不分先后),分别就青海零碳产业园万卡集群项目、青海高原夸娥万卡集群项目、广西东盟万卡集群项目进行了战略签约。

借助摩尔线程先进的夸娥全栈智算解决方案,各方将携手共建强大的全国产智算平台,以加速产业数字化转型和高质量发展。夸娥万卡智算集群项目标志着国产AI算力基础设施的又一重大进展,将为各地的数字经济发展注入新活力。

发布会后,无问芯穹、清程极智、360、京东云、智平方等五家合作伙伴代表纷纷登台,分享了夸娥智算集群在不同场景和领域的创新应用,展现了其在实际应用中的巨大潜力与广泛适用性。

在接受采访时,张建中提出,GPU产业的自主生态建设是必须的,但兼容国际主流生态也同样重要,只有两条腿走路才能让产品更快地走向市场。而生态的适配、生态的发展能不能做得很好,则是全行业上下游的生态合作伙伴们一起努力的结果。

百花齐放,资源共享

自ChatGPT颠覆式创新引爆生成式大模型发展后,全球数百个大模型争先恐后地走向市场,形成百模大战之态势。但也有人认为,通用大模型的重复性建设是群模乱舞,未来将仅有个位数通用大模型存活下来。

对此,张建中认为,正如人类不应该只有一个大脑一样,Foundation Model还是越多越好。“人类每个人都有自己的观点,有自己的看法和认知,人类才得以不停地进步和发展,这对于大模型也一样,”张建中如是说。

张建中强调, 随着人类大脑的进步,对各种各样信息的摄入量不断增长,千行百业的专业知识都在逐渐转变为“常识”。另外,由于一些需要隐私保护的行业数据无法共享,这些行业都需要自己的Foundation Model,因此未来通用大模型一定会是百花齐放的状态。

目前,许多成熟的大模型虽然已经开始投入到人们的生活和工作中,但仍然无法满足人们的要求,这正是因为训练侧算力不够所导致。至于什么量级的算力集群能够让一个大模型做到足够“聪明”呢?张建中认为或许应是百万卡级别。

不过,如果张建中所言,目前百模大战的背景下,万卡是标配。显然算力资源正因Foundation Model过多而被分散,这将导致很难有足够的GPU能够集中训练出完美的大模型,或者说,这一天会更晚到来。

对此,张建中也表示:“大规模的算力资源应该由建设方和运营商对全社会开放使用,而不是被据为己有。且当集群发展到百万卡级别时,将没有任何一家企业能够独自负担。”

摩尔线程打造的夸娥是一个通用加速的计算平台,其目标也是希望通过夸娥智算集群,以规模够大、计算更通用、生态兼容好的加速计算平台,为美好世界加速。这种理念很好地顺应了算力资源集中的发展趋势,随着技术的不断优化和生态的不断完善,夸娥万卡智算集群必将在AI产业的发展中发挥越来越重要的作用。

作者:Oliver   来源:爱集微

相关

整合网络计算机中国移动中国联通
本评论 更新于:2024-9-8 7:58:50
在C114 APP中与业内人士畅聊通信行业热点话题!