2024年全年全球大模型头部企业产品与技术布局及对电信运营商建议

通过跟踪Meta、OpenAl、谷歌、Anthropic、百度、微软、英伟达、亚马逊、苹果、腾讯、阿里、华为、字节跳动等在国内外AI产业格局中有着举足轻重的地位的头部企业，对上述公司在大模型领域的技术和业务布局进行梳理跟踪分析，建议电信运营商加快大模型战略方向调整，加快布局新的市场机遇。

技术布局：原生多模态、MOE与COE、数据合成等新技术牵引大模型技术发展方向

1.端到端原生多模态技术大幅提升交互体验

2024年，谷歌、Meta、OpenAI等企业接连开始应用并且发布各自版本的端到端原生多模态大语言模型，如Gemini、GPT-4o、ImageBind等，智源研究院也发布原生多模态世界模型Emu3。这些机构采用的原生多模态技术相比传统多模态技术，存在明显优势。一是多模态信息集成能力。原生多模态技术可将多模态信息集成到一个大模型中，统一数据输入模式，使用统一模型来同时处理文本、视觉和音频信息，输入输出都由同一个神经网络完成，跨模态处理时不会像传统技术大量丢失有效信息，从而有效提高模型准确率。二是复杂环境时间线理解能力。原生多模态技术可将多模态信息组合成事件时间线，实现对周围环境的记忆和理解。如Project Astra、ImageBind等可适用于构建全方位、多层次的复杂场景数据分析和内容生成系统。

根据多家企业实践发现，端到端原生多模态技术较传统多模态技术明显跃升的根源是，多模态的预训练数据融合对齐并与大模型框架的耦合性得到了革命性的提升。如Gemini模型对图像、视频、文本等不同模态数据采用特定嵌入方法，将其转化为统一嵌入向量后再进行多模态融合学习及训练，统一采用Transformer Decoder结构并通过高效的多查询注意力机制、超长上下文窗口容量等技术优化及MoE架构，优化了推理稳定性及效率。OpenAI提出的基于扩散模型改进的连续时间一致性模型，生成速度是扩散模型的50倍，为实时生成图像、音频和视频等多模态信息提供可能。

2.MOE与COE技术大幅提升模型训练效率

2024年，大模型应用场景不断地变得复杂化和专业化、碎片化，受到大模型商业化的不可能三角定律（运算成本、响应速度和模型能力）限制，继续推高万亿参数规模大模型使其同时具备通用能力和专业领域能力，已经丧失可能。多模型联合分工成为头部企业共识。

当前阶段多家企业多模型联合作业的主流架构方案主要有MoE（混合专家）与CoE（专家协同）两种。其中MoE架构由门控网络（Gating Network）与多个专家（Experts）模型组成，核心是门控网络，是一个选择机制，决定哪些专家应该处理输入数据。门控网络根据输入数据生成一组权重，这些权重用于加权组合各个专家的输出。每个输入数据会选择和激活其中的一部分专家模型来进行处理，从而减少计算量，提高训练和推理速度，适合处理大规模和复杂的数据集。。如Google采用MoE架构的Switch Transformers模型与传统稠密模型相比，预训练速度和模型速度分别提高了7倍和4倍。CoE架构由独立和异构的专家模型组成，不同于MoE仍需要将总体作为单个模型进行训练/微调，CoE架构下的模型彼此独立训练/微调，其核心是构建专家路由，路由器负责了解哪个专家最适合特定查询并将请求路由到该专家模型，每个专家解决一个问题序列，实现推理资源优化，较MoE架构拥有更好鲁棒性、更高效率、更强泛化能力和可解释性，更适用于分布式实时深度学习任务或具有高度专业化需求的场景。如360公司使用“草莓架构(CoE)”实现思维链+多系统协同，集合10多家国内主流大模型厂商的大模型和专家模型，其测评结果显示在 11 个单项能力测试指标上超越 GPT-4o。未来多模型协同时代，更多企业将会使用CoE架构。

3.数据合成技术有效缓解自然数据增长瓶颈

多家研究机构指出，2028年之前，大模型将消耗尽人类积累的所有高质量数据，由于需要人工高质量反馈，获取成本将越来越高，且一些如罕见病、极端天气等真实世界中难以观测的数据，未来将难以快速获取。目前英伟达、微软、华为、腾讯、阿里等企业在数据合成领域的实践凸显了该技术的巨大市场价值。数据合成不仅可以显著提升数据精度和数据相关性，还可以解决自然数据增长不足带来的数据稀缺问题和数据合规问题，极大降低人工智能算法对数据的依赖性。2024年，合成数据技术的发展得益于生成对抗网络（GAN）、变分自编码器（VAE）、扩散模型（Diffusion Model）等AI算法的进步，使得合成数据质量不断提升。

合成数据技术路线众多，可分成两大类，一是基于真实数据集，模型捕获真实数据的分布特性和结构特征，刻画数据中的多变量关系和相互作用进行生成构建；二是纯模拟生成，如文生视频模型使用 Unity、Unreal Engine等游戏引擎合成的视频。常用的方案有以下三种：基于LLMs生成的合成数据、基于GANs或者DiffusionModels生成的合成数据、基于统计和模拟生成的合成数据，在实际应用中多种方式往往相互协同和补充，以提升数据合成质量。

英伟达和华为均在汽车自动驾驶领域使用合成数据。其中，英伟达向用户开放Omniverse平台自主生成自动驾驶合成数据。华为采用弱模型辅助强模型（weak2strong）方法，迭代式合成不输于真实数据的完整性、相关性和知识性等指标的数据，提升长序列测试约20%的表现，其盘古5.0大模型训练数据中30%是合成数据。6月，英伟达发布新一代开源大模型Nemotron-4340B，其指令模型训练是在98%合成数据基础上完成，此前英伟达还推出了合成数据生成工具OmniverseReplicator，能够生成物理模拟的合成数据，用于自动驾驶汽车和机器人的训练。7月，苹果也发布了其自研的人工智能系统AppleIntelligence，在预训练阶段也大量使用了合成数据。

产品布局：全栈化、端侧化和工具化三条路径加速产品创新和商业化落地

全栈化布局按照多条主线展开。对标企业沿着AI芯片和算力设施、云平台、大模型、端侧AI设备及应用入口等产业环节，采取多种方式将企业前端产品和后端技术能力进行整合。一是以增强政企客户方案为主线，通过AI重构产品链提供一站式服务。如华为公司通过AI重新定义数据治理方法、自研异构芯片匹配复多种算力需求、打造基于混合云部署的大模型能力平台，通过多云协同架构、软硬协同优化形成完整的AI方案链，在政务等领域占据绝对份额。二是以多层级大模型协同为主线，实现从基座-通用/专用-端侧大模型的端到端优化。如多家企业均构建了“基座+通用+专业+端侧”的四级模型体系，通过基座模型、多模态等通用大模型能够迅速搭建行业和场景等任务大模型，同时任务大模型负责收集真实应用场景与数据反哺基座大模型的能力泛化和性能优化，提升特定行业应用效果。三是以企业AI软硬件一体化能力提升为主线，实现体系化创新。如百度公司通过全栈自研AI基础能力，实现AI基础层、技术层和应用层的高度耦合，打造从芯片到行业方案、具身智能设备的“云智一体”商业闭环路径，实现体系化创新，2024年在国内AI市场竞争力和盈利能力均显著提升。

端侧化应用实践快速发展。对标企业的端侧大模型部署终端已经从AI PC和智能手机蔓延到智能汽车、具身机器人和扫地机等边缘智能设备，应用场景也从个人AI助理扩展到智能驾驶等个人服务领域和金融服务等专业服务领域，即将形成新的蓝海市场。如腾讯公司在深圳等疗养机构内测推出的轮足类机器人“小五”备受好评，潜在市场规模接近千亿。对标企业多重实践推动端侧市场快速发展。一是端云协同实践走向成熟，便于打开市场。“端云协同”成为大模型落地机器人等终端的创新范式，端侧大模型距离用户更近，采用安全高效方式理解用户意图、快速响应，云侧大模型用于满足用户深层次需求，两者各有优势，通过云侧计算、存储能力与端侧深度协同，可以克服端侧算力性能瓶颈和硬件成本问题，带动市场需求。二是行业开始自发形成终端智能化分级。目前，市场自发形成从L1智能响应级-L2智能辅助级-L3智能助理级-L4智能协同级-L5自主智能级的分级标准，端侧大模型的性能提升迅速推动端侧设备提升到L3层级，如Anthropic的Claude 3.5 Sonnet版已经实现“computer use”功能。三是AI OS和AI as System等设计为端侧智能提升提供平台。苹果等公司打造的AI OS和AI as System为端侧设备智能水平提升提供创新平台，带动端侧设备智能水平升级。如苹果Apple Intelligence采用直接打造AI OS方式打通多款移动APP应用，另外还有企业采取AI即系统（AI as System）方式，将MoE（混合专家模型）直接落地在手机端侧。

工具化成为新型业务增收来源。全球市场高度重视大模型应用落地与生态的态势，推动对标企业将大模型应用开发工具产品或平台分离出来，从自有大模型服务衍生拓入AI原生工具赛道，作为单独的服务选项进行销售。云商对外输出一站式AI原生能力工具服务。云服务商通过云平台输出AI原生能力，提供低门槛开发、模型可共享、应用易适配的外包服务，大幅降低企业开发和应用大模型的门槛，体现商业价值。如阿里云百炼平台提供一站式大模型开发及应用构建服务，腾讯云通过TRTC提供音视频采集、处理、传输到云端AI处理一站式全链路能力，百度云则通过文心大模型API，推动AI原生应用开发。初创公司对外提供智能体等AI 代码生成服务。初创企业抓住大模型技术带来的软件研发市场机遇，推出易用多种AI编程工具包服务，如OpenAI推出 Agent Builder 用于创建和定制 AI Agent，Anthropic推出可辅助数据分析编程的 JavaScript 沙盒工具，微软推出可通过自然语言描述完成应用开发的 Github Spark 。算力服务商主要提供企业定制化工具包服务。以华为、英伟达等代表的算力服务商重点聚焦全球500强和重点传统行业，提供多类组合的定制化工具包，如华为提供应用开发框架、Prompt工程等应用开发套件和模型定制工作流等模型开发套件、AI数据湖等数据工程套件，供不同情况的客户选择使用，英伟达则提供3D图形渲染的行业多模态大模型算力套件、DGX Cloud超算加速库套件等定制化工具包。

对电信运营商AI业务的发展建议

目前电信运营商大模型开发和应用实践与对标企业相比存在一定的偏离，值得我们认真思考。一方面大模型综合性能难以缩短与世界一流模型的差距，继续往AGI方向大量投资是否有意义。另一方面，与对标企业实践相比，电信运营商在大模型商业化方面的实践仍远远不够，目前仅在部分重点领域开展应用。

建议电信运营商加快大模型战略方向调整，加快原生多模态相关技术研发，加强加强从技术到产品的转化，丰富大模型产品体系。

1.加快大模型战略方向调整，加快布局新的市场机遇

紧随大模型应用生态市场规模逐步赶超云和芯片的市场发展机遇，加快推动电信运营商大模型布局向商业闭环方向调整。首先，借鉴对标AI重构企业核心业务实践，加快将大模型集成到现有战新产品和云网服务中，增加用户粘性并带动营收增长。其次，加快转变以行业以云服务商角色而非专业初创公司角色提供大模型服务，充分发挥企业云平台和大模型服务的联合优势。最后，高度重视2H/2C 领域端侧AI手机和其他端侧设备的规模应用市场机遇，占据市场入口。

2.加强原生多模态、数据合成等相关技术研发，整体提升技术链水平

一是在算法和架构层面，推进原生多模态发展，首先突破多模态数据（离散的文本数据、连续的语音、图像数据等）的统一建模、表示和学习。其次研发更好支持原生多模态的统一模型，如自回归模型（多模态理解）与扩散模型（视觉生成）的融合。

二是加快开发适用的COE等架构提升平台聚合第三方大模型的能力。借鉴头部企业聚合多种能力大模型的基本框架和技术方案，加快打造适用于电信运营商大模型实践的专家模型架构。一种思路是借鉴OpenAl o1，将星辰大模型分开两个系列分别打造“快慢双系统思维架构（Dual Process）”，其中类GPT系列大模型负责类似于人类直觉思维的“快思考”，适用于简单重复的AI场景，类o系列大模型负责类似于人类逻辑思维的“慢思考”，适用于复杂推理的AI场景，两个系列大模型通过思维链协同运作方式融合成为完整的星辰大模型系统。另一种思路是借鉴多家企业采用的CoE架构，集合数量众多的内外部大模型和第三方大模型，其中星辰大模型负责意图识别模型和任务分解调度模型，来实现对客户意图精准理解及敏捷调度适用的大模型和算力资源；外部和第三方大模型负责各自行业语料的积累与行业算法，最终在电信运营商平台上实现聚合众多行业大模型和客户，积累规模知识中枢和大量AI工具。

3.加强从技术到产品的转化，丰富大模型产品体系

一是加快融合面向政企客户的“混合云+传统AI+GenAI”产品和能力。首先，跟随大模型API销售价格不断下降带来的加快“云+AI”部署方式的趋势，统筹考虑政企客户仍然存在传统 NLP/CV 模型和大小模型混用等复杂需求，从算力调度到云平台能力全面适配，打造高性价比、高吻合度的AI解决方案。其次，设计大模型混合云架构，允许用户将大模型从本地延伸到边缘和公有云，提升模型训练性能、数据清洗、模型开发和应用开发效率。最后，聚焦技术与场景的深度融合，能够全面支持企业级 RAG 和企业级 Agent、企业专属小模型等多种需求，推动大模型在行业中的落地应用。

二是加快原生多模态能力在“5G+”领域的应用。首先，全面提升电信运营商在重点领域的数据增强、多模态数据合成和数据标注等能力，全面推进数据能力工具化。通过模拟器生成的多模态场景数据可广泛应用于5G+工业机器人等领域，建议重点加强在5G+和低空经济领域的多模态数据集合成，开发基于LLM解释器模块、可提示视觉模块以及3D时空融合和自动标注的新型数据标注系统，加快为5G+AI赋能重点行业和重点领域叠加多模态大模型能力。其次，加快成熟场景的原生多模态产品研发和推广，特别是电信运营商已经有较好客户基础的智能医疗、智能安防、智慧城市等应用场景。还有，加快原生多模态工具包的产品研发，以MaaS、API等形式向社会输出原生多模态能力。最后，加快端侧多模态大模型的研发和自主品牌端侧终端设备研发推广，增加5G流量入口，如端侧AI智能眼镜和耳机等占据人类听觉和视觉系统的智能穿戴设备。

本文作者