本文版权为《邮电设计技术》所有,如需转载请联系《邮电设计技术》编辑部
摘 要:面对大语言模型对算力需求的快速增长,传统的摩尔定律已经难以满足需求,而大语言模型的扩展法则表明更多参数、更多数据和更多算力能够得到更好的模型智能。针对大语言模型的算力度量问题开展研究,旨在评估大语言模型的算力需求。提出大语言模型训练的算力度量模型和大语言模型推理的算力度量模型,并通过理论分析提出了相应的计算方法。
关键词:大语言模型;算力度量;人工智能
doi:10.12045/j.issn.1007-3043.2024.09.004
概述
大语言模型(Large Language Models,LLMs)是一种基于深度学习技术的自然语言处理模型,通常指的是那些包含千亿或更多参数的,采用 Transformer架构的语言模型。当参数达到足够规模时,模型会具备理解自然语言和解决复杂问题的强大能力(被称为涌现能力),具体表现为 3 个方面,一是上下文理解能力。模型能够充分理解和利用输入文本的前文内容,从而更准确和全面地生成后续的回答或输出;二是指令遵循能力。模型能够准确理解用户给出的指令,并按照要求进行相应的操作和回答;三是逐步推理能力。模型能够逐步、有条理地分析和解决问题,展示出类似于人类思维的逻辑步骤。
国内外公司和科研机构纷纷投身于大模型的研究与开发中,并向用户提供服务,催生了一系列知名的大语言模型。在国外,以 GPT 系列、LLaMA 系列、PaLM系列为代表,其中ChatGPT在与人类交流中表现出了卓越能力;LLaMA 模型因其全部开源,而成为开发更好模型的基础;PaLM 模型在 TPU 上进行训练,具有很高的性能优势。在国内,以文心一言、通义千问、盘古模型为代表,其中文心一言是国内首个正式发布的商业大语言模型,通义千问擅长多领域知识问答,而盘古的大规模多模态能力显著。
大语言模型的训练需要使用大量的计算资源、存储资源和时间。Hoffmann 和 Kaplan 等人分别提出了大语言模型的扩展法则,扩展法则指出大语言模型的发展趋势:更多参数、更多数据和更多算力能够得到更好的模型智能。已披露的大语言模型训练信息显示了同样的趋势。拥有 650 亿参数的 LLaMA 模型使用包含1.4万亿个token的训练数据集,在2 048块配备 80G 显存的 A100 芯片上训练,耗时 21 天;而拥有10 850亿参数的盘古模型使用3 290亿个token的训练数据集,在 512 块 Ascend910 芯片上训练,耗时 100天。大语言模型的推理使用算力资源相对较少,很多模型推理能够在单独的智能芯片上运行。
大语言模型算力度量是对大语言模型的算力需求进行评估。在模型训练时,准确的算力度量可以保证算力资源的充分利用,同时对训练时间进行准确的估计。在模型推理时,算力度量关注模型推理完成用户请求所需要的成本。
目前算力度量的研究主要是关注算力度量体系的建立,针对具体业务的算力度量研究相对较少。杜宗鹏、李一男、王施霁等人分别提出了算力网络的算力度量模型,王磊等人提出了一种算力度量指标,祝淑琼和乔楚等的研究侧重于任务调度的算力度量,冯汉枣和姜海洋等人提出了云场景下的算力度量方法,夏天豪等人提出了深度学习的算力资源度量方法。
本文针对大语言模型的算力度量开展研究,提出大语言模型训练的算力度量模型和大语言模型推理的算力度量模型,并通过理论分析提出了计算方法。