8月30日,中国移动智算中心(哈尔滨)正式建成并投产使用,作为国内运营商最大的单集群智算中心,无论从前期的规划设计、技术体系制定还是现场的规模数量、设备多样性、建设验收都是一项巨大的、复杂的系统工程。在工程最繁忙的时候,现场有来自中国移动内部相关单位以及设备商、集成商等外部合作伙伴近200名技术人员。而在其中,一名来自中国移动研究院的特殊的“数智员工”——“AUTO行云”自动化集成验收工具,以其兢兢业业的工作态度和高效可靠的工作能力,为这一里程碑式的智算万卡集群顺利上线提供了有力保障。
万卡集群的高效交付为什么需要“数智员工”
近年来,以大模型为代表的人工智能技术取得了飞速发展,这一对未来影响深远的技术变革,使得作为人工智能发展基础的大规模智算中心的建设,也日渐成为各大企业乃至大国之间竞争的新焦点。在这一过程中,不仅算力规模日益庞大,从千卡向万卡乃至未来十万卡的量级快速扩张,算力基础设施的快速供应也也成为关键。据消息称,马斯克最近投产的10万卡超算集群,从硬件安装到投入训练,总共只花了19天时间。
与此同时,在大规模基础设施特别是万卡新型智算中心建设过程中,数千台设备、数万条网络连线、数十万项各类设备规格等等,会不可避免的发生设备硬件故障及驱动程序错误、网络连线及光模块问题,以及人工设备参数配置错误等。必须要对硬件进行全面、准确的验收检查,发现、定位和帮助整改各类问题,以高质量的算力基础设施确保后续大模型训练的正常运行。
可以想见,对于如此大的工作量,如果采用人工,即使可以通过投入大量资源完成测试,项目工期也是完全不可接受的。为应对这一挑战,中国移动研究院自研的“AUTO行云”自动化集成验收工具应运而生。几年来,该工具已经在网络云、IT云和智算中心等320多个资源池建设中累计应用超过30万台服务器,将超过95%的人工操作转为自动化,使配置验收环节效率提升10倍以上,整体工期缩短2/3以上。
为了便于现场使用自动化工具开展集成验收,AUTO团队打造了可远程访问的AUTOBox软硬一体机设备,每当有类似哈尔滨智算集群这样的大规模算网基础设施建设项目,一台AUTOBox就会作为一名“数智员工”出差到现场,成为辅助项目集成和验收的技术中坚力量。
AUTO“数智员工”(位于哈尔滨万卡集群)
“数智员工”在哈尔滨万卡集群中的表现可圈可点
在哈尔滨万卡集群现场,研究院这名被大家亲切称之为“小5”(编号为AUTO-5)的“员工”,在历时近2个月的集成验收测试期间表现可谓可圈可点,获得大家的一致认可。
勇于担当,直面困难不退缩。哈尔滨万卡集群的各类服务器、交换机等设备数量超过6000台,连线数量近7万条,这一规模比AUTO以往验收过的最大规模资源池还要大3倍以上。虽然AUTO团队特意选派了“身体素质好、战斗力强”(设备配置高、性能强)的“小5”前往哈尔滨,但在开始工作之处还是遭遇了严重的性能挑战。
例如,其它集群中,一般1小时就可以完成的一轮全量验收测试,在万卡智算集群中需要耗费7至8小时。由于庞大的数据量对数据库造成的压力,可视化测试验收界面在加载数据时频繁出现响应缓慢,使得一线工程师难以实时监控和了解测试的具体进展。为此,AUTO团队迅速在调度策略、数据库写入次数、SQL执行解耦、界面加载优化等多维度制定优化措施,保障“小5”的运行性能。经过不断努力,将单轮全量测试时间压缩到2小时以内完成、错误用例的重测间隔时间更是控制到半小时以内,页面响应速度也大幅提升。
勤勉尽责,默默严守质量关。从7月初进驻现场开始,“小5”就默默地待在机房的一个角落,保持着7×24小时的高强度、不间断自动运转。哈尔滨智算集群的验收用例总计超过25万个,“小5”一轮接着一轮运行,第一时间通过页面、邮件等方式汇报测试结果和发现的问题。
“小5”同时也是连接智算集群、一线工程师和AUTO团队的媒介。一方面,AUTO团队和一线工程师均可通过“小5”获取测试结果的整体情况和详细报告,并安排“小5”对部分测试用例进行临时复测,或者通过更新代码、数据来升级“小5”的能力。另一方面,“小5”还自带最新的基于大模型的“智能助手”,协助现网工程师实现快速问题分析并指导整改。
AUTO运行界面(位于哈尔滨万卡集群)
持续进步,高效掌握新技能。在AUTO平台以往的使用模式中,为保障测试过程和结果的准确和可靠,通常需要人工预先准备详尽的期望值数据作为验收的依据,期望值的内容如有错漏将直接影响自动化验收的结果。在本次哈尔滨万卡集群中,面对6千余台设备规模、约40种配置模型、每种模型包含30余个参数项的复杂场景特征,如何在尽量减少人员投入、避免反复沟通的情况下,快速准确准备数据成为关键问题。
为解决这一难题,AUTO团队为“小5”增加了“自学习”的能力。通过我们称之为AUTOZero的无监督自学习的数据管理算法,通过现场采集设备信息,采用智能算法来预测各类设备的组件规格、配置参数等期望结果,实际使用中预测准确率达到95%以上,可减少80%的数据准备及校验工作量,显著缩短了验收的准备时间。
即时响应,周到服务暖人心。在现场驻守的“小5”背后,是AUTO平台软件开发和实施支撑团队的近10名经验丰富的研究院同事。“保姆式服务”,是黑龙江省公司负责万卡集群验收的网络部同事们,对AUTO团队现网支撑的敏捷响应和实干精神有感而发的一个“词”。AUTO团队为保障万卡资源池的顺利进行,多次与省公司和一线工程师沟通,根据现场需求快速响应实现分批测试、定位报错设备位置信息、页面会话保存、LLD更新时间等功能。通过多方的实时沟通,以及快速的测试问题整改响应,哈尔滨万卡集群第一批设备在一周内测试通过率迅速提升至99%,成为智算验收过程中整改速度最快的集群。省公司同事自己测算,整体验收效率提升73%以上,通过节省智算集群的上线时间,也进一步降低了能耗、人工等多项成本。
面向未来,AUTO“数智员工”时刻待命
两个“100”天打造了哈尔滨万卡集群建设交付的圆满佳绩。AUTO在这个过程中也迈上了新台阶,不仅在集群规模上突破了历史记录,更是在流程、性能、功能、服务等各方面都取得了新的里程碑式成果。
哈尔滨1.8万卡的超大规模智算集群成功上线,未来更多、更大的智算集群仍然在路上。在交流中,省公司对AUTO也提出了更多的应用场景和功能需求,如自动化设备参数配置、标签智能化识别、数字孪生场景的网络拓扑实现等等。“小5”和小伙伴们将在前期积累的技术创新和实战经验,以及与项目一线的良好合作的基础上,进一步提升能力,随时准备奔赴新的智算中心建设现场,为公司智算集群建设和国家算力基础设施的高质量发展做出贡献。