2024-7-4 19:18

周伯文:AI安全提升远落后于性能 需探索人工智能45度平衡率

C114讯 7月4日消息(赵婷婷)7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议-全体会议在上海世博中心举办。会上,上海人工智能实验室主任、首席科学家、清华大学惠妍讲席教授周伯文发表主题演讲,分享了关于人工智能技术发展和安全治理的见解。他提出一个技术主张——探索人工智能的45度平衡率。

当前,以大模型为代表的生成式人工智能快速发展,但是人力不断提升,模型应用存在一系列潜在风险顾虑。去年5月份,数百名AI科学家共同签署文件表达了对AI风险的担忧,呼吁、防御人工智能风险应该与流行病、核战争与其他大规模风险一样成为全球优先议题。


周伯文指出,其根本原因是目前AI发展是失衡的。目前AI技术能力提升,Transformer带来的模型基础下,大数据、大参数量的定理呈指数级增长;而安全标识、安全赋能与评估测量等,呈现离散化、碎片化且后置的特性。

最近的一些技术兼顾了性能和安全性,人类反馈强化学习、超级对齐等,这些方法帮助将人类偏好传递给大模型,涌现出了ChatGPT、GPT4,以及上海书生大模型等。虽然瞄准安全提升,往往还是性能优先。

所以,总体上AI模型安全的提升还远远落后于性能,这种失衡的背后是两者投入上的巨大差异,安全度投入远落后于AI投入,“目前世界上只有1%对齐或者安全优先考量。”

“AI要确保安全可控,统筹发展以安全。所以毫无疑问,要避免现在这类AI发展,真正需要追求的是AGI(通用人工智能)。AGI需要兼顾安全与性能,所以需要找到AI安全优先,但又能保证AI能力长期发展的技术体系,把这样一种技术思想体系叫做‘AI45度平衡率’。”

“AI45度平衡率”是指长期来看,要大体上沿着45度安全与性能平衡发展。平衡是指短期内可以有波动,但不能长期低于45度,也不能长期高于45度,这样会阻碍技术和产业应有发展。45度平衡的技术体系要求强技术驱动、全流程优化、多主体参与,以及敏捷治理。

周伯文提到,实现“AI45度平衡率”,也许有很多技术路径。而上海探索一条以因果为核心的路径,并将其命名为“可信AGI‘因果之梯’”。其分为泛对齐、可干预、能反思三个递进阶段。

泛对齐主要包含当前最前沿人类偏好对齐技术,但需要注意的是。这些安全对齐技术目前仅依赖于其相关性,而不是真正的因果关系,可能导致错误的推理和潜在的危险;

可干预包含AI系统进行动态干预,探究其因果安全技术,包括人在回路,机器可解释性和刚刚最近提出的对抗演练。可以通过提高可解释性和泛化性来提升安全性,同时也提升AI的能力;

能反思要求AI系统不仅追求高效的执行任务,还能够审视自身行为的外在影响和潜在风险,从而确保性能同时保证安全和道德边界不被突破,这阶段技术包括基于价值的训练、因果可解释性、推理等。

周伯文指出,目前从全球来看,AI安全和性能技术发展主要停留在第一阶段,部分在尝试第二阶段,真正实现AI安全与性能平衡必须完善第二阶段,并勇于攀登第三阶段。沿着“可信AGI‘因果之梯’”乘势而上,希望能够实现AI卓越与安全完美融合,并且深度理解AI内在机理和内在过程,从而有效开发革命性技术。

“我们坚信AI安全性也是全球性公共福祉,需要国际社会共同努力和合作。我们要与大家携手推进‘AI45度发展’,共享AI安全技术,加强全球AI安全人才的交流与合作,平衡AI安全与能力的投入,共同构建开放、安全的通用人工智能创新生态和人才发展环境。”他最后说道。

作者:赵婷婷   来源:C114通信网

相关

融合
本评论 更新于:2024-10-5 20:16:09
在C114 APP中与业内人士畅聊通信行业热点话题!