2024-7-6 22:12

智象未来梅涛:生成式人工智能将变成基础设施 扩散模型能力处于L2阶段

C114讯 7月6日消息 昨天,中国信息通信研究院承办的WAIC 2024“迈向AGI:大模型焕新与产业赋能”论坛,于上海徐汇西岸拉开帷幕!本次论坛深度聚焦大模型产业应用落地、端侧智能、大模型安全与治理等前沿热点话题,携手全球AI领域顶级学者、行业领袖展开顶尖思维碰撞,共探大模型驱动新质生产力发展的新潜能,为行业呈现一场精彩纷呈的科技盛宴。

加拿大工程院外籍院士、智象未来创始人兼CEO梅涛院士应邀作了题为“大模型视觉多模态智能交互新界面”的主旨演讲。

梅涛表示,生成式人工智能未来像水和电一样会变成基础设施。生成式AI能够理解人的语言,改变人机交互的方式,产生通用人工智能的技术。如果人工智能能够理解物理世界通过视觉建模可以改变AIGC和改变元宇宙,人工智能如果能做多模态的交互就会催生机器人。

梅涛指出,在通往AGI的道路上,现在有两条技术路径:第一条路线通过语言压缩,通过GPT模型机制预测下一个单词,从而再去理解人类的知识,预计2026年人类的知识就会被大语言模型所消耗掉。另外一条路线是扩散模型,它的技术框架跟GPT完全不一样,它是从视觉的角度构建对整个世界物理的模型。“目前为止,这条曲线发展的逻辑会比GPT的曲线稍微慢一点,我们认为现在的扩散模型的技术能力相当于GPT2的能力,将来有一天这两条曲线会融合在一起。”

梅涛表示,从整个的视频生产来说,可以把视频技术的成熟度分为五个阶段,从L1到L5,从单镜头的视频生成到未来多镜头、多故事性。“终局我们希望一篇小说扔给机器,机器就能够做分镜和镜头的生成,做IP的一致性,最后呈现一个完整的电视剧,我们认为所有的技术目前还处于L2的阶段。”

梅涛指出,一个技术到最后落地有很多因素要考虑,最重要的因素就是成本、效率、体验。“成本端,1秒钟的生成成本大概是在1元人民币到1美金之间;效率端,输出一个prompt,产生视频渲染的时间可能是10几秒甚至是1分钟;体验端,不管是做文字模型、视觉模型还是没有从服务专业用户到服务普通用户,未来有很多的路要走。”

梅涛认为,未来不可能是一个大模型解决所有的问题,一定是一个大模型结合所有的小模型Agent帮助实现用户的需要。我们的策略是通过一个基础大模型,通过文字对齐多模态模型,结合很多的产品应用型的小模型服务千行百业,包括智能终端、包括电子商务、文旅宣传等等。

 

来源:C114通信网

相关

元宇宙融合IP电子商务
本评论 更新于:2024-9-21 2:18:24
在C114 APP中与业内人士畅聊通信行业热点话题!