2024-8-31 20:20

跻身“算力一线城市”,哈尔滨用了两个“100天”——国内运营商最大单集群智算中心彰显技术创新力量

哈尔滨,这座以“冰城”之名闻名遐迩的城市,凭借着丰富的冰雪资源和旅游资源成为“网红”。而如今,它又凭借着得天独厚的地理优势,斩获了一张崭新的“名片”,昂首阔步地迈进了“算力一线城市”的行列。

8月30日,国内运营商最大单集群智算中心——中国移动智算中心(哈尔滨)建设完成并正式投产使用。单集群拥有超过1.8万卡的丰富资源,可提供6.9EFLOPS(每秒690亿亿次浮点运算)智能算力。其规模之大、技术之先进,预示着一场关于算力与创新的革命即将上演。

智算中心的技术发展不断推动着AI的边界,高性能处理器、高速存储、高吞吐低时延、高质效集成交付等都是智算中心技术创新的关键。中国移动研究院在智算万卡集群关键技术攻关中,通过多项创新技术确保大模型运行的低时延、高带宽数据处理和存储能力;同时,通过自动化、数智化能力确保资源池的高效率高质量交付,这展现出中国移动在科技创新、产业引领等方面的强大实力。

为此,记者满怀期待地走进中国移动(哈尔滨)数据中心,与参与万卡集群项目建设的中国移动研究院、省公司等专业人士倾心交谈,为读者缓缓揭开中国移动智算中心(哈尔滨)万卡集群技术创新那神秘的面纱,以及背后那些鲜为人知、扣人心弦的故事。

  中国移动(哈尔滨)数据中心

两个“100天”打造世界一流智算中心,呈国之大者风采

近两年,火爆的生成式AI被许多人称为“暴力美学”,在模型参数规模足够大,训练数据集足够多,GPU卡数足够多的情况下,模型将“涌现”出意想不到的能力。于是,建设一个万卡规模且通用可扩展的智算中心,便成了时代的召唤。然而,这绝非易事。

从千卡到万卡集群,绝非简单的堆叠,其复杂度呈指数级增加。中国移动研究院网络与IT技术研究所副所长唐华斌表示,在万卡集群的构建过程中,一系列技术难题接踵而至。比如,怎样在集群规模扩张的同时实现有效算力的同步线性提升?如何应对海量数据处理、超大规模互联、集群高可用、高质效集成交付等艰巨挑战?为攻克这些难关,团队成员们日夜拼搏。

“工期紧、任务重、挑战多”是参与中国移动智算中心(哈尔滨)超万卡智算集群工程建设成员们最刻骨铭心的感受。从最初的规划,到立项,再到最终交付,这一浩大工程仅用了令人惊叹的“两个100天”。工程现场负责人——中国移动黑龙江公司计划建设部项目经理丁磊介绍,“项目团队锁定目标,努力拼搏、攻坚克难,“一个100天”完成万卡配套达产;“一个100天”实现万卡集群高效交付。提前4个月完成智算中心高质量投产。”

作为国内运营商最大单集群智算中心,哈尔滨智算中心在中国移动全国算力布局中无疑占据着至关重要的战略地位,“作为关键的算力节点,能有效提升区域乃至全国的算力服务水平,哈尔滨智算中心作为国内首个基于国产技术栈建成的万卡智算集群,在行业中具有非常重大的标杆意义。在此之前,智算规模大多在一万卡以下,对于千亿或者万亿模型训练来说,仍会在一定程度上受限于底层的算力资源。哈尔滨1.8万卡集群的建成和投入,将更有利于模型团队充分利用底层资源,通过设施并行度更高的训练策略,加快模型训练的进度。

令人惊叹的是,哈尔滨智算中心在国产芯片的使用上达到了规模最大的程度,堪称国之大者的担当体现。积极响应国家科技自主创新的号召,大力推动国产芯片在关键领域的应用,为国产芯片的发展提供了广阔的舞台。通过大规模使用国产芯片,不仅提升了智算中心的稳定性和安全性,更在全球科技竞争的格局中,彰显了中国在科技领域自主创新的决心和实力。

“万卡集群刚刚建成,为了确保上线后稳定高效运行,相关单位已经开展了多次沟通,并参考中国移动前期已建成运行的智算集群,以及业界大规模智算集群的运行经验,从流程优化、资源保障、人才培养、工具研发等全方位着手准备。”中国移动黑龙江公司网络管理部专家韩雪对记者娓娓道来。

  智算中心机房

攻坚克难,科创铁军勇担国之栋梁使命

中国移动研究院将支撑中国移动智算中心(哈尔滨)建设作为淬炼科技创新能力,锻造求上进、素质高、能打仗、打胜仗的“四铁”科创铁军的主战场。组建了一支由算力网络重大项目负责人段晓东牵头,涵盖老中青人才雁阵43人的智算攻关团队,团队中以研究院“青苗计划”人员为代表的“90后”青年科研人员达到5人。智算攻坚项目既是研究院“青苗”科技人才“炼金计划”的试金石,也是科研铁军大战大考的大校场。在哈尔滨智算中心建设中,智算攻关团队坚持党建引领和党建带团建,开展“领题破题 合力攻坚”,组建党员先锋队,实施团员“新兵连”培养模式,坚持以技术创新推动算网底座能力提升,提出了一系列独具匠心的技术方案,多项创新成果得到应用。中国移动研究院智算攻关团队在这次技术攻坚战中展现出来的雄厚实力以及责任感和使命感为哈尔滨万卡集群工程保驾护航。

面对万卡集群建设的严峻技术性挑战,中国移动研究院围绕“新互联、新算效、新存储、新平台、新节能”五大创新技术领域,展开了系统性重构,制定《中国移动NICC新型智算中心技术体系》。采用全调度以太网技术(GSE)实现网络互联的升级,协同CPU、GPU、DPU三大芯片实现算效范式优化,引入融合存储技术支撑高效处理海量文件与对象数据。

据了解,哈尔滨万卡集群是业内首个大规模应用融合存储的集群,也是首个落地中国移动原创智算网络全调度以太网(GSE1.0)的万卡集群,并应用中国移动自研AUTO算网基础设施自动化平台实现万卡集群自动化验收的全量设备覆盖。多个“首个”就像一面面鲜艳的旗帜,充分彰显出中国移动的研发实力和技术优势。

相比传统的通用云数据中心,智算中心的存储方案比较复杂,既要引入支持大模型训练过程中高效数据交换的高性能文件存储,又要引入对象存储满足外部数据交互需求。为了解决智算中心数据跨池拷贝造成的智能算力闲置和浪费的问题,中国移动研究院团队推动在万卡集群中使用高性能融合存储技术。融合存储,就是建设一套存储系统,支持多种存储协议互通,满足多样化的数据访问需求。

中国移动研究院智算攻关团队专家闫晗表示,融合存储对于智算中心建设可以节省大量的存储容量,而且避免数据在不同存储系统之间无效流转,用户可通过对象协议上传原始训练数据集,AI训练通过文件协议直接访问,无需等待跨池数据拷贝,AI训练各阶段无缝衔接,对大模型训练效率提升可达星期级。

万卡集群不同服务器节点间频繁地参数同步,网络的性能成为关键。中国移动在哈尔滨万卡集群首次正式应用GSE1.0,在现有以太网转发机制上优化负载均衡和拥塞授权控制机制,从而大幅提升GPU节点间通信效率,将通信占比缩短20%。“以GPT-3单次训练成本140万美元为例,训练任务完成时间可缩短20%,节约成本约28万美元。”中国移动研究院基础网络技术研究所副所长程伟强强调,当前中国移动正在加快攻关全调度以太网2.0技术,将进一步革新底层以太网转发机制,通过研发先进的以太网芯片,力争推动网络性能提升至30%以上。

此外,在智算中心的建设过程中,大规模、多厂商、异构化的服务器、交换机等设备的配置集成和测试验收工作量也极为繁重,很容易影响工程质量和工期。作为5G、算力网络等新型基础设施建设的主力军,中国移动针对此类问题也早已有“杀手锏”。中国移动研究院自主研发的“AUTO行云”自动化集成验收平台,能够将超过95%的人工操作转为自动化,使配置验收环节效率提升10倍以上,总体工期缩短2/3以上。

即便如此,参与项目建设的中国移动研究院AUTO团队专家马奇凤回想起刚接到任务时的情景,面对如此庞大的规模和复杂的状况,内心难免有所担忧。“刚接到黑龙江万卡资源池需求时,我们也吓了一跳,AUTO要测试的有6000多台各类设备,近7万条网络连线,初步测算有将近25万个测试用例,这个规模比我们之前验收过的最大的资源池差不多翻了两番!说实话我们是有些担心AUTO工具的性能,因为之前没有遇到过单池规模这么大的需求。”

  AUTO运行界面

保障现网验收工作顺利进行,AUTO团队迅速组建“黑龙江万卡集群验收保障小组”,与各方紧密沟通,拟定周全的预案,最终成功跨越了一个又一个技术障碍。“后来实践发现我们前期的准备和预案都发挥了很好的效果。在哈尔滨1.8万卡超大规模智算集群中,2小时内即可对所有设备和网络连线进行自动化全量检查,对智算中心高质量、高效率交付发挥了非常关键的作用。”中国移动研究院AUTO团队专家李鑫欣喜地说道。

“保姆式服务”是中国移动黑龙江省公司负责万卡集群验收的网络部同事们为感谢AUTO团队现网支撑的敏捷响应和实干精神有感而发的一个“词”。

“其实前期我们在计划验收智算区域节点千卡集群时,原来预计需要一个月才能验收完毕,后来用了AUTO以及少量人工后时间缩短至差不多一周,效率提升73%以上,同时还能保证验收设备的全覆盖。”韩雪坦言,“如果实现的这些效果都投入人工去做的话,会是一个非常大的工作量。使用AUTO后保证效率提升的同时,其实也就是为智算集群节省了时间、耗电、人工等多项成本。”

在项目建设中,从完备的工具到迅速的响应速度,再到深度参与问题排查和整改,每一处细节都彰显着团队的专业素养与倾心付出。“针对现场测试及发现问题的回复,响应非常快,基本都在10分钟以内,可以想象团队在并行开展多个集群测试验收支撑的同时,能做到万卡集群10分钟以内的响应速度还是值得点赞。”韩雪所在的网络部验收组对AUTO团队的服务给予了高度肯定。

从0到1,国产化算力彰显国之重器风范

尽管“规模越大、算力越高、效果越好”成为行业圭皋,然而在国内,全国产化的GPU万卡集群屈指可数。有超大规模,同时还具备超强通用性的万卡集群,更是行业空白。

哈尔滨万卡集群建成之前,业界万卡集群主要是基于某国外厂商GPU建设的,从计算到存储到网络几乎都根植于其技术体系,成本高昂且难以替代。哈尔滨万卡集群的建成意味着,国产GPU同样也可以建设高效的超万卡集群,也会进而带动智算产业链中更多的企业抓住智算发展的契机,既是找到企业自身发展的机会,也是最终形成国内智算产业整体升级的机会。

但必须承认,当前万卡集群,尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说,不仅需要在计算、存储、网络等方面实现横向协同,也需要在基础设施、芯片使能软件、框架层面实现纵向协同,涉及的技术领域之广,技术难度之大,也是很少见的。

“在制定万卡集群技术方案期间,跨部门跨领域的技术方案讨论特别多,经常是某个领域遇到一个技术难题,就会拉起临时会议召集各领域同事在线讨论,在此期间观点的碰撞在所难免,毕竟大家是在做一项开拓性的工作,并没有一个可以照搬照抄的经验供参考。值得一提的是,观点碰撞之后,大家都会想办法从各自领域寻求方案,最终促成一套技术可行也具备实施条件的方案。这种跨越不同专业的信任和互助,是促成万卡集群技术方案快速实施的催化剂。”中国移动研究院智算攻关团队专家陈佳媛对团队的专业创新性和默契感到骄傲。

在国产化方面,中国移动充分发挥央企责任担当、服务国家战略,发挥串联、协同、带动作用,以创新架构、系统集群、绿色低碳为战略支点,推动培育形成国产人工智能算力产业生态,在引领延链、补链、强链中升级智能算力供给。

据了解,目前中国移动已实现多家国产化智能算力芯片落地与实际应用。随着人工智能和多模态大模型的迅猛发展,算力需求日益激增,国产算力迎来重大发展机遇。令人欣喜的是,中国移动的“九天”已实现数据构建、预训练、微调、部署全链路核心技术自主创新,适配国产算力,实现全栈国产。与此同时,中国移动将持续完善智算节点建设布局,打造一批万卡级智算集群,加快超算、量算等多种类型社会算力并网,为社会提供更加丰富、更加优质的智能算力服务。

展望未来,大模型的竞争热潮正在驱动智算中心从千卡集群向万卡甚至超万卡集群演进,中国移动在构建超万卡集群过程中积累了非常宝贵的实践经验,中国移动研究院也将进一步发挥技术创新的引擎作用,促进全调度以太网GSE、全向智感互联OISA、芯合算力原生CAMA等原创核心技术成熟,为超万卡集群的创新突破做好技术储备,与合作伙伴一起应对超万卡集群建设和运营带来的前所未有的挑战,共同实现国产智算设施的又一次跨越式发展。

在算力汹涌澎湃的今日,中国移动智算中心以卓越的技术高度,成为国之重器,以其规模宏大和责任使命,担当国之大者,更以“四铁”科创铁军,挺起国之栋梁的重任。当我们审视这个数字化时代的宏伟画卷,中国移动算力无疑是其中最为璀璨的一笔,它用强大的力量推动着国家的发展与进步,引领着我们迈向更加辉煌的未来。

来源:C114通信网

相关

中国移动运营商网络自主创新以太网
本评论 更新于:2024-11-21 16:50:29
在C114 APP中与业内人士畅聊通信行业热点话题!