o3模型点亮OpenAI发布会：突破、局限与趋势

OpenAI从2024年12月5日起举行了连续12个工作日的发布会，发布内容涵盖了模型、技术、产品功能、合作等领域。发布会不仅是OpenAI技术更新的展示，也是AI产业未来趋势的重要信号。

OpenAI 12天发布会内容与亮点

12天发布会时间线如下图：

　　整体来看，12天的发布内容分为以下三类：

1.质的飞跃：新的推理模型o3和o3 mini

OpenAI在最后一天发布新一代推理模型o3系列的预览版（o2因与英国运营商O2重名跳过）。相比o1，o3在理解复杂任务、逻辑推理、多模态支持、可控性等方面的性能有显著提升，在多个基准测试中达到或接近饱和点。o3 mini则平衡了性能与成本，在某些场景下性能优于o1。根据OpenAI的安全研究计划，目前o3仍处于早期安全测试阶段，并面向公众开放测试申请。

2.现有模型升级：发布o1完整版与Sora正式版

OpenAI在发布会首日推出o1完整版，相较预览版速度更快（响应速度快50%）、性能更强（在数学、科学、编码等方面的ML基准测试中表现更佳）、准确率更高（错误率减少34%），并新增多模态输入功能。随后发布了基于o1模型的专业领域定制化方案——强化学习微调技术（RFT）、开放o1 API、实时API集成WebRTC、偏好微调等更新，提升模型的专业性与可用性。

Sora正式版于第三天发布，除了基础的文本/图片/视频生成视频功能之外，还加入了故事板编辑工具、场景混合和循环视频制作等高级编辑功能，支持最高分辨率1080p和最长20秒的视频输出。

3.现有模型产品化：加速模型的落地应用

（1）推出多项更新，将ChatGPT打造为一个集成的生产力工具：一是在“人+AI协作”方面，推出Canvas更新并全面开放，集智能写作、代码协作和定制化AI智能体为一体，直接运行Python代码并可被定制的GPT调用，提升用户使用大模型工作的效率。二是在交互模式方面，强化了高级语音模式，增加视频输入和实时屏幕共享功能。三是在搜索方面，ChatGPT Search全面开放，可在实时对话中调用，支持多模态输出。四是“组织和管理任务”方面，推出Projects功能，帮助用户构建体系化知识库，支持设置自定义指令，并与Canvas集成。五是上线全新订阅套餐ChatGPT Pro，提供o1 Pro模式和全套功能、Sora慢速生成等无限使用权限，月费200美元。

（2）强化与苹果的合作：ChatGPT无缝接入iPhone、iPad和Mac，并与Siri和Apple Intelligence展开协同。ChatGPT在苹果电脑上可支持MatLab、Script Editor等桌面应用。

（3）推出ChatGPT热线：无需注册，用户可拨打电话与ChatGPT进行语音对话，或通过WhatsApp给ChatGPT发消息。

突破与局限

1.o3技术突破：多领域脑力劳动替代的新引擎

科学、编码及数学能力取得新突破：o3凭借自然语言程序搜索与执行机制，以及链式思维和自适应思考时间等创新技术，在处理复杂任务和新任务适应性上具有显著优势。科学及推理方面，GPQA Diamond博士级别科学问题测试中，o3比o1 高10个百分点；ARC-AGI图形逻辑推理测试，o3 微调后准确率达 87.5%，超人类平均水平（85%）（见下图）。编码方面，在 Codeforces 编程竞赛的 168076 名参赛者中排175名，战胜99.9%的程序员；在SWE - Bench软件开发测试里，o3正确率71.7%，远超o1的48.9%。数学方面，AIME 2024 测试中o3正确率96.7%，仅错一题。面对前沿数学难题，o3正确率25.2%，而以往所有模型都未达2%。

2.新模型o3仍有局限，早先模型o1和Sora的护城河正消失

（1）o3仍有诸多局限

模型成熟度方面：o3系列仅发布演示版。o3-mini外部安全测试申请开放中，o3则连测试员也还得继续等待。

技术层面：仍然依赖自然语言指令而非可执行的符号程序，指令的模糊性增加了理解难度；无法像人类那样通过与现实世界的互动来学习和适应，使其无法通过直接执行来评估自己生成的解决方案的有效性。

性能层面：在某些基础任务上仍会出现失误。在即将发布的ARC-AGI-2测试中，预计其得分可能降至30%以下（而普通人类仍能保持95%以上的得分）。

效率层面：高昂的计算成本，大量的计算资源消耗，在某些任务上的效率低于人类。o3在低计算量模式下每个任务需要17-20美元，高计算量模式下每个任务需数千美元，而对比o1的费用在10美元以下。

（2）o1和Sora等早先模型的护城河正逐渐被对手填平

据11月美国风投公司MenloVentures发布的《2024年企业生成式人工智能的现状》报告显示，OpenAI份额却已从去年的50%降至34%，而Anthropic推出Claude 3.5 Sonnet后，市场份额翻倍至24%。在推理模型方面，谷歌Gemini2.0 Flash Thinking的思考速度比o1快5倍。在视频生成模型方面，盲测数据显示谷歌Veo2和快手的可灵1.5表现赶超Sora。

从发布会看行业的发展趋势

1.大模型技术与产品趋势

（1）推理模型是下一阶段核心发展方向

OpenAI本次推出的o3以及谷歌Gemini 2.0 Flash Thinking等推理模型均表现出强大推理能力，在更精准地处理复杂任务方面有显著优势。未来推理模型必将迎来更多创新和突破，推动人工智能向AGI迈进。

（2）原生双向多模态大模型成为各大厂商竞争焦点

OpenAI本次发布的o1正式版新增多模态识别；谷歌Gemini 2.0支持同时处理文本、图像、音频和视频等多种输入类型，并能生成图像和音频内容；亚马逊发布自研多模态系列模型Amazon Nova，并预告将于2025年推出Any-to-Any模型，解决多模态转换、内容编辑以及AI智能体操作等多种任务。

（3）AI搜索有望成为杀手级应用

OpenAI此次更新搜索功能，能够与用户进行自然语言的实时对话交互，极大增强了搜索的灵活性和用户体验。SimilarWeb最新数据显示，AI搜索满意度达74%、访问量持续攀升。美国红杉资本预测AI搜索正在成为杀手级应用。

2.基础模型商业化趋势

（1）通过快速迭代保持行业领先地位

OpenAI在o系列上采用GPT系列一样快速迭代的策略，争夺AI行业发展的重要概念如AGI、Scaling law等定义权，如OpenAI在o1正式版发布的15天后推出o3，再次证明了市场领先策略在AI领域的重要性，即通过技术上的快速迭代和市场上的声势制造来保持领先地位。

（2）通过阶梯定价策略提收入、稳客源

OpenAI采用阶梯定价策略，此次发布会推出每月200美元的专业版ChatGPT，是基础订阅价格的十倍。根据彭博社近日报道，OpenAI首席财务官表示正在讨论每月2000美元的AI产品订阅。另一方面，为获取数据和争夺用户，GPT-4o和GPT-4o mini等旧模型则免费提供给用户有限制使用。

3.模型能力提升将促进安全标准提高与规范重塑

人工智能安全与风险防范问题随着大模型的日益强大而更受关注。此次发布会OpenAI针对o系列模型提出新对齐策略“审议式对齐”（deliberative alignment），这是一种直接教授模型安全规范的新范式，使模型能够高度精确地遵守安全策略，并且不需要人工标记的思维链或答案。“审议式对齐”使安全标准更具可操作性和精确性，为提高大模型的安全性提供了一条新途径。

本文作者

陈晓佳

战略发展研究所

二级分析师

硕士，主要从事运营商竞争研究、产数市场研究等。

朱莹莹

战略发展研究所

副主任分析师

高级经济师，硕士，长期从事通信行业竞争分析、数字经济产业及前沿技术跟踪研究等工作。

申红梅

战略发展研究所

一级分析师

硕士，高级工程师，就职于中国电信研究院，主要从事数字经济重点领域及通信行业竞争对标等相关研究。

o3模型点亮OpenAI发布会：突破、局限与趋势

相关

扫二维码关注C114微信