智象未来梅涛：生成式人工智能将变成基础设施扩散模型能力处于L2阶段

C114讯 7月6日消息昨天，中国信息通信研究院承办的WAIC 2024“迈向AGI：大模型焕新与产业赋能”论坛，于上海徐汇西岸拉开帷幕！本次论坛深度聚焦大模型产业应用落地、端侧智能、大模型安全与治理等前沿热点话题，携手全球AI领域顶级学者、行业领袖展开顶尖思维碰撞，共探大模型驱动新质生产力发展的新潜能，为行业呈现一场精彩纷呈的科技盛宴。

加拿大工程院外籍院士、智象未来创始人兼CEO梅涛院士应邀作了题为“大模型视觉多模态智能交互新界面”的主旨演讲。

梅涛表示，生成式人工智能未来像水和电一样会变成基础设施。生成式AI能够理解人的语言，改变人机交互的方式，产生通用人工智能的技术。如果人工智能能够理解物理世界通过视觉建模可以改变AIGC和改变元宇宙，人工智能如果能做多模态的交互就会催生机器人。

梅涛指出，在通往AGI的道路上，现在有两条技术路径：第一条路线通过语言压缩，通过GPT模型机制预测下一个单词，从而再去理解人类的知识，预计2026年人类的知识就会被大语言模型所消耗掉。另外一条路线是扩散模型，它的技术框架跟GPT完全不一样，它是从视觉的角度构建对整个世界物理的模型。“目前为止，这条曲线发展的逻辑会比GPT的曲线稍微慢一点，我们认为现在的扩散模型的技术能力相当于GPT2的能力，将来有一天这两条曲线会融合在一起。”

梅涛表示，从整个的视频生产来说，可以把视频技术的成熟度分为五个阶段，从L1到L5，从单镜头的视频生成到未来多镜头、多故事性。“终局我们希望一篇小说扔给机器，机器就能够做分镜和镜头的生成，做IP的一致性，最后呈现一个完整的电视剧，我们认为所有的技术目前还处于L2的阶段。”

梅涛指出，一个技术到最后落地有很多因素要考虑，最重要的因素就是成本、效率、体验。“成本端，1秒钟的生成成本大概是在1元人民币到1美金之间；效率端，输出一个prompt，产生视频渲染的时间可能是10几秒甚至是1分钟；体验端，不管是做文字模型、视觉模型还是没有从服务专业用户到服务普通用户，未来有很多的路要走。”

梅涛认为，未来不可能是一个大模型解决所有的问题，一定是一个大模型结合所有的小模型Agent帮助实现用户的需要。我们的策略是通过一个基础大模型，通过文字对齐多模态模型，结合很多的产品应用型的小模型服务千行百业，包括智能终端、包括电子商务、文旅宣传等等。

智象未来梅涛：生成式人工智能将变成基础设施扩散模型能力处于L2阶段

相关

扫二维码关注C114微信

智象未来梅涛：生成式人工智能将变成基础设施 扩散模型能力处于L2阶段

相关

扫二维码关注C114微信

智象未来梅涛：生成式人工智能将变成基础设施扩散模型能力处于L2阶段