满血版的 o3 和 o4-mini 在深夜登场。它们首次将图像推理融入到思维链中,并且能够自主调用工具,在 60 秒内就能破解复杂难题。特别值得一提的是,o3 以十倍 o1 的算力刷新了编程、数学、视觉推理的 SOTA 成绩,接近“天才水平”。另外,OpenAI 开源了编程神器 Codex CLI,并且在一夜之间迅速爆火。
不出所料,满血版o3真的来了。
OpenAI 联合创始人 Greg Brockman 以及首席研究官 Mark Chen 刚刚带队开启了一场时长 20 分钟的线上直播。
这次有 o3 ,同时还有下一代推理模型 o4-mini 。它们实现了“用图像思考”这一情况是首次出现的,可称得上是视觉推理方面的极为出色的作品。
两款模型在不到 1 分钟的时间里,就像 AI 智能体一样,能够自主地进行判断,并且将 GPT 内置工具组合起来运用,从而生成了详尽周全的答案。
其中包含搜索网页这一行为,还包含用 Python 来分析上传的文件及数据,同时包含对视觉输入进行深度推理,甚至包含生成图像这一操作。
在 Codeforces 基准测试中,o3 刷新了 SOTA。在 SWE-bench 基准测试中,o3 刷新了 SOTA。在 MMMU 基准测试中,o3 刷新了 SOTA。o3 不论是在编程领域,还是在数学领域,不论是在科学领域,还是在视觉感知领域,都树立了新标杆。
尤其是,在图像、图表、图形分析方面,o3 的表现格外突出。它能够深入地去挖掘视觉输入所包含的细节。
在 Codeforces 里,新模型的得分都超过了 2700 分,并且在全球的参赛者当中处于前 200 名的位置。
用奥特曼的话来说,「接近或达到天才水平」。
不过,这个智力的代价是,需要投入o1十倍以上的算力。
相较于满血版的 o3,o4-mini 凭借其小巧的外形、高效的性能以及高性价比的优势而脱颖而出。
在 AIME 2025 测试里,o4-mini 与 Python 解释器相配合,获得了 99.5%的高分,在这项基准测试中几乎是完美拿下的。
它在数学领域的性能优于 o3-mini,在编程领域的性能优于 o3-mini,在视觉任务领域的性能优于 o3-mini,并且在非 STEM 领域的性能也优于 o3-mini。
此外,o4-mini 能够支持的使用额度远远超过 o3。它在高并发场景中是最为优选的。
总之,o3 很擅长编码,o4-mini 也很擅长编码。基于此,OpenAI 开源了一个能在终端运行的轻量级编程 AI 智能体,即 Codex CLI。
从今天开始,GPT Plus 用户会最先体验到 o3、o4‑mini 和 o4‑mini‑high。同时,Pro 用户也会第一时间体验到这些。并且,Team 用户同样会在第一时间体验到。这些新的体验将取代之前的 o1、o3‑mini 和 o3‑mini‑high。
这两款模型会通过 Chat Completions API 以及 Responses API 来向所有开发者提供。
推理模型,首次会用工具了
在直播演示里,Greg 首先展示了一个价值。有些模型具有质的飞跃的特点,GPT-4 就是其中之一,而今天的 o3/o4-mini 同样具备这样的特点。
他表示,o3 使得他以及 OpenAI 的同事目睹了 AI 大模型能够达成“从未见过的事”。例如,它自身就提出了一个极为出色的系统架构构想。
这两款模型令人惊讶的地方在于,它们不只是单纯的模型,而是一个“AI 系统”。
它们与之前那些推理模型存在最大的区别,即首次被用于训练各种工具。并且它们会在 CoT 中运用这些工具去解决难题。
在人类的最后考试里,o3 模型的表现能够与 Deep Research 相媲美,并且它的速率比 Deep Research 更快。
o3 为了攻克一个复杂难题,曾经连续使用约 600 次工具调用。它们生成的代码片段是一次性的,这些代码片段真正在代码库中发挥了效用。
Greg 表示,自己最为珍视的一点在于它们的软件工程能力。它们不仅具备编写一次性代码的能力,还能够在真实的代码库中真正地发挥作用。
它在浏览 OpenAI 的代码库这件事上,比 Greg 做得更出色。这便是它极为有用的所在之处。
在指令跟随以及智能体工具使用评估方面,o3 和 o4-mini 与工具结合后的准确性是最高的。
外部专家评估表明,在处理真实世界任务时,o3 的严重错误率比 o1 降低的幅度还要大 20%。
之所以取得如此大的进步,是因为 RL 中持续的算法进步在起驱动作用。按照 Greg 的说法,在引擎盖下最令人惊叹的是,当前它依然只是在预测一个 token 之后,再加入少许 RL 的 AI,就已经达到了这样的程度。
在实操过程中,o3 是怎样结合使用工具来解决复杂任务的呢?
多模态团队的研究员 Brandon McKinzie 上传了一张海报,这张海报是 2015 年完成的一个物理实习相关的海报,他让 GPT 去估算质子同位标量电荷的数量。
o3 开始进行推理的时候,会依次去分析图片里的内容,并且要确定 Brandon 提出问题的正确数量。事实上,海报截图当中并没有包含最终的结果。
o3 开始进行联网搜索以查找最新的估算值,在几秒钟的时间里读完了数十篇论文,这样就节省了大量的时间。
结果显示,模型计算出了一个值,这个值未经归一化。将这个未经归一化的值乘以一个特定常数后,又可以重新归一化。最终的结果与实际比较接近。
后训练团队的研究员 Eric Mitchell 为 GPT 开启了记忆功能。接着,让 o3 去查找新闻,这些新闻要与自身兴趣相关,并且还要足够冷门。
o3 凭借已有的对潜水和演奏音乐的了解,主动进行思考并调用工具,从而找出了一些与之相关的有趣内容。
研究人员录制了健康珊瑚的声音,然后用扬声器播放这些录音,这样做加速了新珊瑚和鱼类的定居。
同时,它还能绘制出可视化的数据,便于直接放入博客文章当中。
o3 用于前沿科研领域时会非常有用,将其模型集成到日常工作流中也会非常有用。
在解决 AIME 数学竞赛问题时,要求 o3 观察 2x2 方格网格,然后计算出满足约束条件的颜色方案数量。
它生成了一个暴力程序,接着用 Python 解释器来运行这个程序,最终得到了正确答案 82。
即便如此,它的解题过程并非优雅简洁。对此,o3 自动进行识别,然后尝试简化解决方案,以找到更聪明的办法。
它会自动去核查答案是否可靠,并且最后还给出了文字方面的解决方案,这样能方便向人类进行解释。
研究人员感到惊讶,在训练 o3 时,既没有运用类似的策略,也没有提出简化的要求,全部都是由 AI 自主学习来完成的。
研究人员在编码任务中让 o3-high 去找出一个错误,这个错误是名为 symbols 的软件包的错误。
模型首先会主动去检查指令中所说的问题是否存在,接着会尝试去了解代码储存库的概况。
它发现了一种能够用于解释类继承信息的 Python 结构,并且可以进行 mro 操作。凭借已有的世界知识,它找到了问题的所在。
最后,o3通过对互联网进行浏览,找到了一个解决方案,这个方案是最优的,它叫做 apply_patch。
从推理成本方面来讲,o3 以及 o4-mini 不仅是到目前为止最为智能的模型,而且与 o1 和 o3-mini 相比,它们在效率方面和成本控制方面都树立了新的标杆。
在 2025 年的 AIME 数学竞赛中,o3 的推理成本和性能都比 o1 更优。同时,o4-mini 的成本-性能也比 o3-mini 更优。
如果你需要一个模型,这个模型要小且快,并且是多模态推理模型,那么 o4-mini 将是极好的选择。
o4-mini 能够自主选择工具、计划方法来解决问题,在数学方面没问题,在商业方面没问题,在科学方面没问题,在体育方面没问题,在视觉推理方面也没问题。
在解决体育问题时,o3 具备联网获取最新数据的能力,并且考虑到了最近一个赛季以及 2022 - 23 年联赛 ERA 略升之后回归正常这一情况。
给出的数据大概值,存在偏差,不够精确。它错误地认为偷垒增加仅仅是因为投球计时器,而忽略了基地垫扩大以及限制牵制次数这些更直接的原因。
左右滑动查看
用图像思考,视觉推理新巅峰
更引人注目的是,o3 在视觉推理方面全面超越了前代。o4-mini 同样在视觉推理上全面超越了前代。它们都成为了 o 系列最新的视觉推理模型。
它们通过在思维链中运用图像来进行推理,从而实现了视觉感知方面的重大突破。
OpenAI 首次达成了这样的成果:模型在其思维链中能够借助图像进行思考,而不只是单纯地观看图像。
早期的 OpenAI o1 是这样的,而 o3 和 o4-mini 与之类似,它们能够在回答之前进行更久的思考,并且在回答用户之前,其内部会生成很长的思维链。
o3 和 o4-mini 不仅可以在思考过程中具备“看”图片的能力。这种能力是借助工具对用户上传的图像进行处理而达成的,例如对图像进行裁剪、放大、旋转等较为简单的图像处理操作。
更厉害的是,这些功能都是原生的,不需要依赖额外的专业模型。
在基准测试里,这种通过图像来思考的能力,并且不需要依赖网络浏览,它的性能超越了前代多模态模型的性能。
o4-mini 在视觉搜索(V*)领域创下了 SOTA。
特别是在 V*基准测试方面,两款模型达到了 96.3%的准确率,几乎攻克了这项挑战,这标志着视觉推理技术取得了重大的飞跃。
GPT 增强的视觉智能,能够以更彻底的方式分析图片,能够以更精准的方式分析图片,能够以更可靠的方式分析图片,从而帮你解决更棘手的问题。
它可以把高级推理和网页搜索、图像处理等工具进行无缝结合。它能够自动对图片进行放大、裁剪、翻转或者优化操作。即便照片存在不完美的情况,它也能够挖掘出其中的有用信息。
比如,你能够上传一张经济学作业的照片,接着就能获得一步步的解答;或者你可以分享一个程序报错的截图,从而能够快速找出问题的根源。
这种方法开启了一种新的计算扩展方式,且是在测试时进行的。它将视觉和文本推理完美地融合在了一起。
它们在多模态基准测试中表现顶尖,这体现了出来。这标志着多模态推理向前迈出了重要的一步。
视觉推理实战
用图像思考可以与GPT更加轻松的互动。
你可以通过直接拍张照片来进行提问,不必担心物体的摆放情况。无论是文字是否颠倒,还是一张照片中存在多道物理题,都无需担忧。
即使东西乍一看不太清楚,视觉推理也能让模型放大看清细节。
比如,有一个笔记本放在桌子上,其位置几乎与视线平行。这个笔记本上面有两行字,字比较模糊。人直接去看的话,也很难将其认出来。
GPT 能够把图片放大来查看,当发现字是倒着的时候,接着把它旋转过来,最后成功地将其辨认出来。
上下滑动查看
上下滑动查看
上下滑动查看
上下滑动查看
OpenAI 最新的视觉推理模型具备与 Python 数据分析、网页搜索、图像生成等工具相配合的能力,能够以创意且高效的方式解决更为复杂的问题,首次为用户带来了多模态智能体验。
编程智能体Codex CLI全开源
接下来,OpenAI 称会展示 codex 遗产的部分延续情况,并且会发布一系列应用程序,这些应用程序将会对编程的未来进行定义。
OpenAI 开源了一项新的实验性工具,除了新模型之外,这个工具是 Codex CLI,它是一个可在终端运行的轻量级编程 AI 智能体。
它的作用,就是在需要的地方安全地部署代码执行。
它在本地计算机上直接运行,目的是把 o3 和 o4-mini 这类模型的强大推理能力充分发挥出来,并且很快会支持像 GPT-4.1 等更多模型的 API 调用。
向模型传递屏幕截图或低保真草图,同时结合访问本地代码的权限,就可以在命令行中体验到多模态推理的强大功能。
他们启动了一项资助计划,金额为 100 万美元。这项计划是用以支持相关项目的。这些项目使用的是 Codex CLI 和 OpenAI 模型。
GitHub项目发布之后,Codex CLI已经获得了 3.3k 颗星,这表明它的响应度非常高。
项目地址:
现场,OpenAI 的演示人员依据网上的帖子,借助 Codex 和 o4 Mini 制作了一个极为酷炫的图片转 ASCII 生成器。
先截一张图,然后将其拖进终端里,之后就可以把这张图交给 Codex。
令人惊叹的是,你可以实际看到它在思考,还可以直接运行工具。
Codex完成后创建了一个 ASCII HTML 文件,并且还生成了一个能够控制分辨率的滑块。
也就是说,从现在起,电脑上的所有文件都能够放进 Codex 中。并且,你正在处理的代码库也可以放进 Codex 里。
在现场,研究者们还成功添加了一个网络摄像头API。
Scaling强化学习,依旧有效
在 OpenAI o3 的研发过程里,研究者观察到了这样一个现象:大规模的强化学习也遵循着 GPT 系列在预训练时所显现出来的规律。这个规律就是“投入越多的计算资源,就能够获得越好的性能”。
他们沿着这条 Scaling 路径前行。这次主要聚焦于强化学习(RL)。他们将训练计算量提升了一个数量级,同时也把推理阶段的思考量(或称推理计算量)提升了一个数量级。即便如此,依然观察到了显著的性能提升。
技术报告:
这表明只要给予模型更多的时间让其去进行“思考”,那么它的表现就会不断地提升。
o3 与前代 o1 相比,在相同延迟和成本的情况下能展现出更高的性能。并且,更让人兴奋的是,要是允许它思考更长时间,它的性能还会持续上升。
此外,OpenAI 进行了强化学习训练。通过这种训练,o3 和 o4-mini 掌握了工具使用的智慧。它们不仅学会了“如何用”工具,还懂得了“何时用”工具。
它们能够完全访问 GPT 内置的工具,同时也能够通过 API 中的函数调用功能来接入用户自定义的工具。
这种能力使得模型在开放式场景下能够更加得心应手。尤其在面对需要视觉推理以及包含多步骤的复杂任务时,它表现得更为出色。
而且,从前面的诸多案例里,我们已经获取到了关于模型工具调用能力的关键部分。
那些提前拿到内测资格的大佬们,纷纷被o3震惊了。
在临床领域,它的表现十分突出,堪称现象级。在医学领域,它的表现也很卓越,同样堪称现象级。它在诊断分析方面,仿佛是顶尖专家所写。它在治疗建议方面,也仿佛是顶尖专家所出。
o3 正在成为这场变革的主导者,无论是在加速科学发现方面,还是在优化临床决策方面,亦或是在推理跨领域的创新方面。
参考资料: