OpenAI从2024年12月5日起举行了连续12个工作日的发布会,发布内容涵盖了模型、技术、产品功能、合作等领域。发布会不仅是OpenAI技术更新的展示,也是AI产业未来趋势的重要信号。
OpenAI 12天发布会内容与亮点
12天发布会时间线如下图:
整体来看,12天的发布内容分为以下三类:
1.质的飞跃:新的推理模型o3和o3 mini
OpenAI在最后一天发布新一代推理模型o3系列的预览版(o2因与英国运营商O2重名跳过)。相比o1,o3在理解复杂任务、逻辑推理、多模态支持、可控性等方面的性能有显著提升,在多个基准测试中达到或接近饱和点。o3 mini则平衡了性能与成本,在某些场景下性能优于o1。根据OpenAI的安全研究计划,目前o3仍处于早期安全测试阶段,并面向公众开放测试申请。
2.现有模型升级:发布o1完整版与Sora正式版
OpenAI在发布会首日推出o1完整版,相较预览版速度更快(响应速度快50%)、性能更强(在数学、科学、编码等方面的ML基准测试中表现更佳)、准确率更高(错误率减少34%),并新增多模态输入功能。随后发布了基于o1模型的专业领域定制化方案——强化学习微调技术(RFT)、开放o1 API、实时API集成WebRTC、偏好微调等更新,提升模型的专业性与可用性。
Sora正式版于第三天发布,除了基础的文本/图片/视频生成视频功能之外,还加入了故事板编辑工具、场景混合和循环视频制作等高级编辑功能,支持最高分辨率1080p和最长20秒的视频输出。
3.现有模型产品化:加速模型的落地应用
(1)推出多项更新,将ChatGPT打造为一个集成的生产力工具:一是在“人+AI协作”方面,推出Canvas更新并全面开放,集智能写作、代码协作和定制化AI智能体为一体,直接运行Python代码并可被定制的GPT调用,提升用户使用大模型工作的效率。二是在交互模式方面,强化了高级语音模式,增加视频输入和实时屏幕共享功能。三是在搜索方面,ChatGPT Search全面开放,可在实时对话中调用,支持多模态输出。四是“组织和管理任务”方面,推出Projects功能,帮助用户构建体系化知识库,支持设置自定义指令,并与Canvas集成。五是上线全新订阅套餐ChatGPT Pro,提供o1 Pro模式和全套功能、Sora慢速生成等无限使用权限,月费200美元。
(2)强化与苹果的合作:ChatGPT无缝接入iPhone、iPad和Mac,并与Siri和Apple Intelligence展开协同。ChatGPT在苹果电脑上可支持MatLab、Script Editor等桌面应用。
(3)推出ChatGPT热线:无需注册,用户可拨打电话与ChatGPT进行语音对话,或通过WhatsApp给ChatGPT发消息。
突破与局限
1.o3技术突破:多领域脑力劳动替代的新引擎
科学、编码及数学能力取得新突破:o3凭借自然语言程序搜索与执行机制,以及链式思维和自适应思考时间等创新技术,在处理复杂任务和新任务适应性上具有显著优势。科学及推理方面,GPQA Diamond博士级别科学问题测试中,o3比o1 高10个百分点;ARC-AGI图形逻辑推理测试,o3 微调后准确率达 87.5%,超人类平均水平(85%)(见下图)。编码方面,在 Codeforces 编程竞赛的 168076 名参赛者中排175名,战胜99.9%的程序员;在SWE - Bench软件开发测试里,o3正确率71.7%,远超o1的48.9%。数学方面,AIME 2024 测试中o3正确率96.7%,仅错一题。面对前沿数学难题,o3正确率25.2%,而以往所有模型都未达2%。
2.新模型o3仍有局限,早先模型o1和Sora的护城河正消失
(1)o3仍有诸多局限
模型成熟度方面:o3系列仅发布演示版。o3-mini外部安全测试申请开放中,o3则连测试员也还得继续等待。
技术层面:仍然依赖自然语言指令而非可执行的符号程序,指令的模糊性增加了理解难度;无法像人类那样通过与现实世界的互动来学习和适应,使其无法通过直接执行来评估自己生成的解决方案的有效性。
性能层面:在某些基础任务上仍会出现失误。在即将发布的ARC-AGI-2测试中,预计其得分可能降至30%以下(而普通人类仍能保持95%以上的得分)。
效率层面:高昂的计算成本,大量的计算资源消耗,在某些任务上的效率低于人类。o3在低计算量模式下每个任务需要17-20美元,高计算量模式下每个任务需数千美元,而对比o1的费用在10美元以下。
(2)o1和Sora等早先模型的护城河正逐渐被对手填平
据11月美国风投公司MenloVentures发布的《2024年企业生成式人工智能的现状》报告显示,OpenAI份额却已从去年的50%降至34%,而Anthropic推出Claude 3.5 Sonnet后,市场份额翻倍至24%。在推理模型方面,谷歌Gemini2.0 Flash Thinking的思考速度比o1快5倍。在视频生成模型方面,盲测数据显示谷歌Veo2和快手的可灵1.5表现赶超Sora。
从发布会看行业的发展趋势
1.大模型技术与产品趋势
(1)推理模型是下一阶段核心发展方向
OpenAI本次推出的o3以及谷歌Gemini 2.0 Flash Thinking等推理模型均表现出强大推理能力,在更精准地处理复杂任务方面有显著优势。未来推理模型必将迎来更多创新和突破,推动人工智能向AGI迈进。
(2)原生双向多模态大模型成为各大厂商竞争焦点
OpenAI本次发布的o1正式版新增多模态识别;谷歌Gemini 2.0支持同时处理文本、图像、音频和视频等多种输入类型,并能生成图像和音频内容;亚马逊发布自研多模态系列模型Amazon Nova,并预告将于2025年推出Any-to-Any模型,解决多模态转换、内容编辑以及AI智能体操作等多种任务。
(3)AI搜索有望成为杀手级应用
OpenAI此次更新搜索功能,能够与用户进行自然语言的实时对话交互,极大增强了搜索的灵活性和用户体验。SimilarWeb最新数据显示,AI搜索满意度达74%、访问量持续攀升。美国红杉资本预测AI搜索正在成为杀手级应用。
2.基础模型商业化趋势
(1)通过快速迭代保持行业领先地位
OpenAI在o系列上采用GPT系列一样快速迭代的策略,争夺AI行业发展的重要概念如AGI、Scaling law等定义权,如OpenAI在o1正式版发布的15天后推出o3,再次证明了市场领先策略在AI领域的重要性,即通过技术上的快速迭代和市场上的声势制造来保持领先地位。
(2)通过阶梯定价策略提收入、稳客源
OpenAI采用阶梯定价策略,此次发布会推出每月200美元的专业版ChatGPT,是基础订阅价格的十倍。根据彭博社近日报道,OpenAI首席财务官表示正在讨论每月2000美元的AI产品订阅。另一方面,为获取数据和争夺用户,GPT-4o和GPT-4o mini等旧模型则免费提供给用户有限制使用。
3.模型能力提升将促进安全标准提高与规范重塑
人工智能安全与风险防范问题随着大模型的日益强大而更受关注。此次发布会OpenAI针对o系列模型提出新对齐策略“审议式对齐”(deliberative alignment),这是一种直接教授模型安全规范的新范式,使模型能够高度精确地遵守安全策略,并且不需要人工标记的思维链或答案。“审议式对齐”使安全标准更具可操作性和精确性,为提高大模型的安全性提供了一条新途径。
本文作者
陈晓佳
战略发展研究所
二级分析师
硕士,主要从事运营商竞争研究、产数市场研究等。
朱莹莹
战略发展研究所
副主任分析师
高级经济师,硕士,长期从事通信行业竞争分析、数字经济产业及前沿技术跟踪研究等工作。
申红梅
战略发展研究所
一级分析师
硕士,高级工程师,就职于中国电信研究院,主要从事数字经济重点领域及通信行业竞争对标等相关研究。