从2024云栖大会看AGI发展之路：强化学习、端到端、通用泛化

9月19日-9月21日，以“云启智跃产业蝶变”为主题的2024杭州·云栖大会在云栖小镇召开，大会共举行了400多场并行话题论坛，设置了4万平米的“人工智能+馆”、“计算馆”和“前沿应用馆”。正如阿里CEO、阿里云董事长兼CEO吴泳铭在主旨演讲中所提到的，“AI最大的想象力在于，渗透数字世界、接管数字世界、改变物理世界”。区别于上一届云栖大会聚焦AI上游的算力和生态，本次云栖大会重点呈现了在云计算第三次浪潮下，人工智能将迎来的全面变革。通往AGI的大模型演进、生成式AI如何重塑自动驾驶以及人形机器人的发展畅想成为最热命题。本文结合大会热点围绕AGI未来发展及重点应用总结专家观点及趋势。

大会看点及趋势

1.AGI持续加速发展，强化学习开启规模定律新范式

AGI正面临关键技术范式迭代，强化学习提升大模型能力上限。一方面大模型发展速度仍然强劲，未来技术迭代方向更为清晰。大会上专家先后提及GPT-4o代表的多模融合技术进步、特斯拉FSD代表的端到端智驾模型突破、以及OpenAI o1代表的大语言模型推理能力跃升。专家指出，o1的发布第一次证明大语言模型可以具备人脑主动反思、纠错的复杂慢思考能力，为未来大模型智力水平提升给出了清晰路径。另一方面强化学习推动通用性和泛化性大幅提升，成为规模定律新范式。传统大模型预训练模式多聚焦特定场景，通过增加参数量、数据量提升模型性能，如AlphaGo 只能下围棋，AlphaFold 只能预测蛋白质的结构。而o1采用基于推理的训练方式，目前已在数学、代码等理工科领域展现出较强泛化能力，为未来模型能力提升指明了方向。

AGI产品将迎来革新，增量价值和体验质量的平衡是关键。Kimi创始人杨植麟认为现在处于产业发展的早期，产品研发形态仍由技术进展反推而来。o1推理能力的进步标志产品智力水平可得到进一步提升，但由于慢思考会增加延时，找到更好输出与快响应二者间的平衡点很重要。考虑到慢思考响应时间较长的特点，专家认为生产侧更高价值的场景将孕育更多大模型发展机会。此外，杨植麟认为未来产品形态的设计可能会更接近人类，成为真正的assistant（助手），帮助人们完成复杂的任务。

推理侧计算需求将成倍增长，对芯片性能及算力规模提出更高要求。阶跃星辰CEO姜大昕认为，在强化学习阶段，尤其是进行self-play（自我博弈）时，数据量在理论上可无限扩展，如OpenAI使用了上万张H100显卡，用时几个月训练o1模型，后续还将持续增加对推理芯片算力、性能要求。同时杨植麟认为，o1的问世只是强化学习泛化到了更高阶段的开始，而未来通用、泛化的要求会进一步提升算力需求。

2.端到端架构提升智驾上下限，引领技术产业双升级

端到端将为智能驾驶带来质的提升，数据驱动加速产业发展。传统的智能驾驶方案为模块化结构，存在人为设定的规则难以穷尽所有场景的痛点，而端到端技术路线将有效提升智驾的上下限。小鹏汽车董事长、CEO何小鹏表示：未来36个月，端到端智驾可以让我们每一个人在每一个城市都像老司机一样开车。具体来看，端到端架构将对智驾体验带来以下三点改进：一是操作更加灵活，减少机械化操作。基于规则的智驾算法会过度量化人的行为，导致驾驶体验过于机械，与人在驾驶时灵活的操作不符。而端到端架构由真人的驾驶数据驱动，让驾驶行为更加拟人。二是增加通用性，大幅减少开发工作量，加快智驾开放速度。基于规则的算法在通用性上限制极大。英伟达全球副总裁、汽车事业部负责人吴新宙表示，每发现一个新的情景，感知模块和规控模块分别需要上百万辆车的数据集来训练优化，从而产生巨大的工程和测试工作量。而端到端架构基于大模型开发，已经过互联网量级的数据训练，对物理世界的理解远超汽车驾驶场景，通用性将大幅提升。三是提升时空关联能力和逻辑判断力，降低人工接管频率。OpenAI o1模型的发布显示了大模型在逻辑推理方面的潜力。基于规则的智驾算法几乎不具备时间记忆能力，而基于端到端架构的智驾算法拥有长时间、空间的关联能力，结合其逻辑推理能力，有望解决更加复杂的场景，如翻倒的卡车等。吴新宙表示，基于端到端架构，人工接管频率可能由百公里接管降低至千公里或者万公里，能够帮助我们真正打开L3、L4级智驾的大门。

产业方面，FSD入华或使汽车行业竞争加剧，形成规模效应是关键。吴新宙表示，特斯拉FSD采用先进的端到端架构，有效提升了智驾的上限，但国内环境更加复杂，其下限问题尚未解决。短时间内，国内智驾方案与FSD将不分伯仲。何小鹏表示，FSD入华将对国内车厂带来一定的技术冲击。未来车厂将发生以下两点变化：一是车厂将从完全集成模式转向核心领域自研+其他领域集成。过去，车厂以合并他人能力，制造符合用户需求的产品为目标。未来将会向软件企业、互联网企业转型升级，在智驾技术、智能芯片等核心领域强化自主掌控。二是车厂将由专注制造转向全生命周期运营。过去，汽车销售由合作伙伴完成，车厂无法进行后服务和后收费。未来车厂将转向从产品研发到售后服务的全生命周期运营，服务模式和商业模式都将发生颠覆性变化。一旦软硬件形成规模经济，中国车厂将有机会打造全球性的汽车品牌。何小鹏表示，下一个阶段的赛点是谁能够每年生产、销售100万台全智能汽车。

3.大模型健全人形机器人大脑、小脑，推动通用性和泛化性发展

通用感知、通用规划、通用执行融为一体的大模型，将打造端到端的人形机器人大脑。北大-银河通用具身智能联合实验室主任、智源学者王鹤表示，现在的人形机器人几乎都是建立在模块化的独立小模型基础上，端到端的大模型为人形机器人提供了一种可以高效理解事物本质及其处理方法的世界模型。目前大模型赋能机器人的途径主要包括：一方面以Agent形态通过调用不同模型的API执行完整的感知、交互和决策，另一方面基于Monitor方式强化自我校正和学习优化。未来人形机器人领域有望延用自动驾驶端到端的技术理念和框架，打造通用感知、通用规划或通用执行融为一体的人形机器人大脑，将物理世界的动作信息作为大模型输出的关键模态，促使人形机器人执行更高效的操作、实现更精准的反应、应对更复杂的场景。

全身协同的运动智能是提高人形机器人泛化性的关键，小脑成为制约发展的核心瓶颈。当前人形机器人还需攻克复杂地形行走、四肢协同操作以及软硬协同等运动智能难题，需实现手脚眼脑的全身协调才能具备通用的移动和操作能力。宇树科技CEO王兴兴、逐际动力创始人张巍以及王鹤均强调了全身协同控制对人形机器人实现通用人工智能的重要性。星动纪元创始人陈建宇则进一步表示，人形机器人的大脑、小脑和本体中，当前发展最为薄弱、技术最不确定的是小脑。与人形机器人的大脑不同，小脑主要负责实现机器人的运动控制和平衡调节，是承接大脑决策、调用硬件本体的关键系统。如今人形机器人的小脑发展已从手等单个器官的自由控制，转向为手、脚等的局部协调控制，但缺少多维度的环境感知和精密控制算法，运动控制的自由度和协同性还有待提升。

人形机器人在部分2B场景已达商业化边界，但大规模商用仍需一段时间。受益于大模型技术赋能和汽车等产业复用，人形机器人将在当前数百上千倍投入的驱动下加速发展，有望在零售、工业等场景率先达到技术-价值转化奇点。王兴兴提出人形机器人在零售场景已达产业化边界，2025年将迎来产业元年，未来3年在全球范围内大概率会出现通用型机器人。陈建宇也认为人形机器人在突破小脑瓶颈后将在一两年时间内进入工业场景初步使用。然而考虑到人形机器人仍需突破端到端大脑、敏捷小脑等技术难题，伦理法规、规模量产等准入门槛，大规模商用仍需时间。王鹤、张巍认为，人形机器人在家庭场景下的泛化没有边界，预计10年后才能达到进入家庭的标准，要避免操之过急实现大规模商业化。

建议

1.紧抓技术突破窗口期，培育良好的应用土壤。

一是积极开展前沿领域技术探索，鼓励并引导国内企业形成技术联盟，实现基础架构、算法模型开源开放，提升技术研发效率。二是打造技术与产品的合作生态。鼓励大模型科技企业率先与国内外生产、制造企业探索各种形式的深度合作，协同孵化具有生态竞争力的高水平产品及设备。

2.加快汽车数据基础设施建设，推动数据驱动产业发展。

一是建立公共服务平台，完善汽车数据产权、数据安全合规等政策，建立协同合作措施，发挥不同主体优势，推动产学研合作激发产业发展动力。二是建立汽车数据标准体系，围绕汽车数据各领域全面布局，推动共性标准研制及落地实施，指导企业构建完善的数据能力体系。

3.完善人形机器人大脑-小脑-本体产业体系，有序推进规模商业落地。

一是基于多模态大模型加快机器人“大脑”端到端进化，全面提升先验知识库能力、强大的通识理解能力、复杂语义多级推理能力。二是强化小脑的软件承接和硬件操控能力，攻克运动智能控制难点，推动人形机器人全身协同、敏捷反应。三是在零售、工业制造等固定场景优先孵化成熟产品，打造良好示范标杆，进而推动全场景全任务的通用型人形机器人研发和商用。

本文作者

姜璐

战略发展研究所

一级分析师

就职于中国电信研究院，长期从事云网融合、数字经济等相关研究，近年来专注集成电路、操作系统等专业领域。

傅悦

战略发展研究所

助理分析师

硕士，就职于中国电信研究院，长期从事数字产业相关研究，近年来专注集成电路、车联网等专业领域。

赵晔蕾

战略发展研究所

二级分析师

硕士，主要从事工业互联网、大数据产业发展趋势研究，长期专注产业数字化研究。

从2024云栖大会看AGI发展之路：强化学习、端到端、通用泛化

相关

扫二维码关注C114微信