近日,在2024云网智联大会上,中国移动研究院网络与IT技术研究所异构计算基础软件系统专家解子岩受邀参加算力网络/算力基础设施分论坛,以《算力原生助力多元算力释放协同效能》为主题发表演讲,系统阐述以算力原生基础软件技术屏蔽异构算力底层差异、使能多元算力一体协同运用的技术路径,以及“芯合”1.0在此领域的产业实践成果。
以大模型为驱动的新一代生成式人工智能技术推动生产力跨时代变革的同时,带来对高性能算力规模需求的激增,据预测,Transformer类大模型的训推算力需求将以每两年扩大275倍的速度指数级递增,传统单一类型、单点部署的基础设施难以满足发展需求,亟需算力网络体系化集结泛在的多元计算系统,形成灵活一体的算力服务能力,随时随需为“AI+”行动赋能,加速数字经济创新发展。
随着近年多样化异构智算芯片涌现,产业界形成了多套“AI框架+工具链+硬件”的软硬一体竖井生态,上层应用与底层智算芯片深度绑定,带来应用开发迁移成本高昂、智算资源难以集聚、新型硬件融入受限等挑战。多元算力的一体协同运用亟需屏蔽异构硬件差异、融通智算竖井生态,使能应用一体部署和跨架构迁移能力。
中国移动充分发挥算力网络创新技术的积累优势,率先提出算力原生原创技术,突破“统一编程模型、跨架构编译、算力抽象、自适应动态运行”四大业界难题,形成以核心基础软件技术屏蔽底层差异,解耦紧耦合工具链建设模式的新方法,并积极在ITU、CCSA推动算力原生标准体系建设。
同时,中国移动充分发挥运营商的龙头研发牵引作用,打破产业各自为战的研发模式,建立协同桥梁,以算力原生技术为依托、典型应用为牵引,研制发布“芯合”基础软件栈1.0,实现“统一编程套件、源源转换工具、跨架构编译器、自适应运行时”四大核心功能组件,完成3家硬件厂商3类算力硬件的适配,支撑图像识别、视频分析两类应用,在业内首次实现“智算应用一次构建、跨芯部署随需迁移”的目标,显著降低AI应用向多类异构算力的迁移成本和复杂度,提升资源利用率及运营灵活性,有助于实现混合异构算力集聚、一体协同运用的重要目标。首个release版本已贡献至OIF算力原生开源工作组,促进成果全球共享。
最后,解子岩表示,算力原生是多学科交叉技术领域,是需要产学研各界联动的复杂系统工程,中国移动将进一步深化四大核心技术攻关,开展已有成果的试用验证。同时联合产学研各界合作伙伴,以融通更多智算芯片、支撑更广泛AI应用场景为目标,全速打造芯合2.0,加快推动算力原生在以NICC新型智算基础设施中成熟落地,培育开放融通的多元智算生态体系,打造算力发展新高峰,推动算力网络实现全“芯”发展。