2024-7-29 08:34

我国工业大模型发展中的四个反差现象

 

以大模型为代表的新一代人工智能技术正加速推进新型工业化的变革进程。2024年1月,国务院常务会议研究部署推动人工智能赋能新型工业化有关工作,强调以人工智能和制造业深度融合为主线,以智能制造为主攻方向,以场景应用为牵引,加快重点行业智能升级,大力发展智能产品,高水平赋能工业制造体系。4月,工信部提出从供给侧、需求侧、基础侧协同发力,加快培育面向工业领域的大模型。可见,工业大模型已经成为人工智能深度赋能新型工业化的重点方向;不仅能推动生产制造高效化发展、大幅缩短生产周期,而且能效降低生产制造的成本消耗,推进工业绿色化、集约化发展。

本文总结分析了我国工业大模型发展现状,及现阶段工业大模型发展过程中存在的几个明显反差,并提出发展趋势展望。

01 我国工业大模型发展现状

当前,我国大模型已进入发展加速期,在自然语言处理、机器视觉和多模态等各技术分支上均与国际技术发展趋势同步发展。在产学研各方共同推动下,我国已建立起涵盖理论方法和软硬件技术的体系化研发能力,涌现出一批具有行业影响力的大模型应用,形成了紧跟世界前沿的各种大模型技术。目前,我国10亿参数规模以上的大模型数量已超100个1。行业大模型深度赋能电子信息、金融、传媒、文旅、医疗、交通、政务等领域。同时,大模型开始向能源、汽车、钢铁等工业领域挺进,在设计、研发、管理等环节崭露头角。

现阶段,国内布局工业大模型的主体可分为四类:AI厂商、工业技术服务商、创新成长型企业、科研机构/科技巨头。AI厂商主要基于通用基础大模型赋能工业领域,主打“大而全”;创新成长型企业则发挥自身在细分领域的经验沉淀打造垂直行业大模型,主打“专而精”;工业技术服务商则选择在既有产品中融入AI能力;科研机构/科技巨头则在国内领先的通用大模型基础上向工业领域渗透。据统计,工业领域已有99个工业大模型应用案例2。

与国外知名大模型相比,2023年下半年国内工业大模型能力提升明显。在工业知识问答、文档生成等领域,国内大模型已取得领先,数据分析、代码理解等领域能力接近;但在工程建模领域,国内大模型与国际存在一定差距3。具体参见图1。

  图1:国内外大模型能力对比

资料来源:中国工业互联网研究院《人工智能大模型工业应用准确性测评》,2024.3

02 我国工业大模型发展过程中的四个反差现象

反差1:AI专利具备数量优势,而制造业AI普及率低

我国在人工智能专利数量方面占据主导地位,但顶级人工智能模型相对较少,且制造企业AI普及率相对较低。根据2024斯坦福AI指数报告,2022年,全球人工智能专利来源中,中国占61.1%,大幅超过美国的20.9%,欧盟和英国仅占2.03%;但 2023 年,全球顶级人工智能模型中,61 个来自美国,欧盟21个,中国15个。另据凯捷(Capgemini)统计数据显示,日本和美国制造企业的AI应用率分别达到了30%和28%;相较于这些发达国家,中国制造企业 AI普及率尚不足11%。

其主要原因在于,目前国内外推出的主流大模型仍为公共数据集训练出的基础大模型,知识面够广但不够专,在工业各垂直领域的性能表现并不突出。根据中国工业互联网研究院2024年3月发布的《人工智能大模型工业应用准确性测评》报告,国内外主流大模型的工业应用准确性平均得分低于60分,处于明显领先位置的GPT-4、“文心一言”等大模型总体评分也仅在70分上下,可见基础大模型在赋能新型工业化方面还有巨大的发展潜力和较大的提升空间。

反差2:通用大模型数量多,而工业垂直领域落地少

与通用大模型相比,垂直行业大模型能够更直接地深入特定行业与业务场景,更精准地满足行业特定的需求,可以弥补通用大模型无法最优化适配到垂直行业中的不足。而对于垂直行业而言,大模型是一种全新的生产力,赋能行业全流程的同时,可以改变行业的业务模式及商业模式,驱动行业实现数据化转型。因而,垂直行业应用将成为大模型产业落地的关键赛道。据不完全统计,截至2023年7月底,国内行业大模型已完成招标项目超过60个,探索赋能不同行业场景的落地方式与应用价值,已成为大模型商业化落地的重要方向。

但从大模型落地行业领域来看,面向工业垂直领域的专用模型较少,大模型在工业垂直场景的应用尚不成熟。截至2023年7月,国内130家研发大模型的公司中,通用大模型为78家,占比60%。另外,行业大模型在金融、传媒、文旅、政务、交通等领域的落地应用速度较快,其中约15%的大模型都是金融垂直大模型。

这主要是因为,AI大模型应用于垂直行业存在以下问题,限制了实际应用效果和行业场景的拓展:一是缺乏行业专有知识。不同行业都有大量区别于其他行业的知识、数据与流程,大模型需要掌握这些know-how语料才能支撑行业专属应用。而通用AI大模型为广泛应用场景提供了解决方案,但其缺乏特定行业的专有知识。二是难以精确控制输出内容。通用AI大模型基于通用数据生成的内容往往过于普遍化,无法满足垂直行业的具体需求。在某些情况下,输出内容可能会偏离问题的实质,给用户带来困惑。三是模型泛化能力不足。人工智能大模型在训练数据上表现出色,但在未见过的数据上可能泛化能力不足,过度拟合是常见问题,这对大模型在不同行业落地应用带来一定门槛。

反差3:工业大模型覆盖环节多,而核心生产应用少

全球范围来看可用于工业领域的大模型超过30个4,形成语言大模型、专用大模型、多模态大模型和视觉大模型四类核心模型,通过三种方式赋能工业企业:基于通用底座直接赋能行业、基于通用底座进行场景化适配调优或形成外挂插件工具、面向工业或具体任务针对性开发。

工业大模型率先落地的场景基本集中在企业的研发/设计、设备、管理等环节,以此提升人机交互性能及业务系统之间的互通效率,但暂未触及工业领域核心“生产”环节。如大语言模型主要应用于工业问答交互、内容生成,以提升任务处理效率为主;专业任务大模型围绕研发形成辅助设计、药物研发两个重点方向,进一步增强研发模式的创新能力;多模态大模型与视觉大模型则在装备智能化和视觉识别领域应用进行初步尝试。

究其原因,工业大模型在核心生产环节的应用受到三个方面的因素制约:一是工业领域本身门类众多,各细分行业高度碎片化和差异化,大模型难以规模复制和推广,客观上提高了其成本和落地门槛。二是工业生产环境经常涉及复杂的工艺流程、高精度的操作控制以及严苛的安全标准。任何模型预测或决策的失误都可能导致生产事故、质量问题或经济损失,因而对可靠性有更严格的要求。三是工业生产对实时性的要求非常高,很多场景需要模型能够在毫秒级甚至微秒级的时间内做出响应;而且,由于计算资源的限制,模型的大小和计算复杂度也需要得到合理控制。这就需要在保证模型性能的同时,尽可能地降低计算复杂度,以实现高效的实时推理。

因而从工业企业的角度,会选择从外围环节引入大模型,而对核心生产环节的应用则相对慎重。以化工行业为例,据百度智能云相关资料,大模型主要应用于企业管理、产品质检领域。企业管理领域利用大模型把行业里安全生产、管理等各类标准,通过大模型知识固化,形成共性的服务平台;产品质检领域则主要是在生产过程中需要多轮质检来保障产品质量,以此降低成本,提升生产效率。

反差4:对工业数据质量要求高,而现有数据不完整、不连通

海量、多源、动态更新的数据是训练模型和进行数据挖掘的必要条件,尤其人工智能大模型的训练需要海量工业数据/语料库,而且对数据规模、质量等的要求很高,因为错误或不一致的数据可能导致模型训练不稳定或性能下降。如预训练阶段,语言大模型需要40TB的中文文本语料;视觉大模型需要100W+工业图像;多模态大模型的效果则与数据量强相关,通常需要亿级以上规模的数据。不仅如此,大模型训练对数据的配比要求也较高,工业数据在所有数据的占比需要达到约10-15%。

我国在工业大模型的应用推广中,面临三个突出问题:一是工业企业数字化程度参差不齐,各场景、环节数据结构不统一,导致工业数据质量参差不齐,缺乏高质量的工业语料数据为大模型的微调训练提供支撑。二是工业生产过程中的各个环节相互交织,数据之间的关联性和复杂性也较高。数据的来源、采集方式、时间戳等都会影响数据的准确性和完整性。这种数据结构的多样与质量的参差不齐给工业大模型的训练和应用带来了挑战。三是工业企业间数据壁垒严重,限制了数据的共享和流通。尤其在核心制造环节,工业数据通常包含企业的核心机密和商业秘密,如工艺参数、配方、客户信息等,因而对数据隐私与数据安全异常敏感。此外,数据共建共享、数据产权界定等机制不完善,导致数据规模和质量无法有效支撑模型训练,一定程度上限制了工业大模型的应用进程。

03 工业大模型发展展望

大模型向B端尤其是工业领域应用已成为行业共识。大模型已呈现出以基础大模型为技术底座,工业应用为切入点的发展趋势。

大模型成本的降低将加速其在工业领域的应用。业界在积极探索各类模型压缩技术,在保证模型精度的同时,可以有效减少模型的参数量、计算复杂度和存储需求,从而降低训练和推理成本。近期BAT和科大讯飞等大模型厂商纷纷宣布主力模型免费,表明大模型成本已经断崖式下降,这无疑将加快大模型在工业领域的渗透速度,并最终提高AI在工业尤其是制造业的普及率。据市场研究机构Market Research Future预计,从2022至2032年工业AI市场规模将以46%的年均复合增长率高速成长。

定制化大模型将成为更多行业的选择。随着各行各业对于大模型的深入理解,大模型将更倾向于满足特定行业需求,为企业提供更为精准的解决方案,就像是为每个行业打造了一套专属的“大脑”。

从落地应用模式来看,工业大模型的应用模式将是“基础大模型+工业APP”,基于少量工业基础大模型快速构建大量工业APP满足碎片化应用需求。从而既能依托基础大模型的结构和知识,又能融合工业细分行业的数据和专家经验,加快形成垂直化、场景化、专业化的应用模型,推动各类工业场景的智能化升级。

工业企业对工业数据的管理将会提上一个新台阶。伴随大模型在各行业外围场景落地并逐步向核心生产环节渗透,工业企业对数据的认识和理解会更加深入。包括如何合理收集、清洗和管理数据,如何确保数据的质量和全面性,如何保障数据的隐私和安全等。而基于各行各业的探索,相关的机制和制度保障也会愈加完善。

注释

1.国家数据局局长刘烈宏2024年3月25日在中国发展高层论坛公布的数据。

2.腾讯研究院《工业大模型应用报告》,2024.3。

3.中国工业互联网研究院《人工智能大模型工业应用准确性测评》,2024.3。

4.工业互联网产业联盟&信通院:工业大模型技术应用与发展报告1.0,2023.12。

本文作者

柴雪芳

战略发展研究所

一级分析师

硕士,高级经济师,就职于中国电信研究院,长期从事信息通信行业市场研究、客户研究,近年来专注于产品运营管理、数字化转型等领域。

来源:天翼智库

相关

互联网融合工信部欧盟转型
本评论 更新于:2024-12-26 20:50:28
在C114 APP中与业内人士畅聊通信行业热点话题!