本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:人工智能训练的计算复杂度逐年猛增,所需的智能算力从每秒千万次运算增加到数百亿次,甚至进入千亿级别,促进了大规模智算中心的建设。智算中心主要满足智算算力的需求,其布局、建设及维护方案与传统的云资源池存在较大差异,当前运营商对智算中心的布局以及详细方案并没有统一的建议和参考。分析了大模型发展带来的算力、存储、组网的需求挑战,对运营商智算布局以及算力、存储、网络、维护管理等提出了相应的策略和方案建议。
关键词:人工智能;智算中心;基础设施;建设思路
doi:10.12045/j.issn.1007-3043.2024.09.012
前言
人工智能聊天机器人ChatGPT、AI 编 程 工 具GitHub CoPilot、图像生成系统 Stable Diffusion、视频生成系统 Sora 等生成式人工智能(Generative AI,GenAI)应用和工具产品的出现,为文本创建、图像视频生成、代码生成以及研发流程等工作带来了全新的智能体验,极大地提升了生产力,提高了生产水平。
Gen-AI 应用的出现离不开大模型的支持。大模型是基于海量参数进行自监督学习的预训练模型,凭借更强的学习能力、更高的精准度以及更强的泛化能力,正在成为人工智能技术发展的焦点。随着大模型的快速成熟,其参数规模呈百万倍增长,随之而来的是算力需求的剧增,芯片算力的增长速度与模型参数规模的增长存在剪刀差,推动了超大规模智算集群的建设。
作为基础设施建设者和新质生产力的推动者,电信运营商正积极推进智算布局。本文基于大模型的发展趋势和需求,结合运营商的特定优势,提出了智算集群布局以及算力、存储、网络和维护管理方面的策略和方案建议。