OpenAI发布满血版o3和o4-mini:图像推理融入思维链,60秒破解复杂难题

   日期:2025-04-17     来源:网络整理    作者:佚名    浏览:186    
核心提示:不出所料,满血版o3真的来了。

满血版的 o3 和 o4-mini 在深夜登场。它们首次将图像推理融入到思维链中,并且能够自主调用工具,在 60 秒内就能破解复杂难题。特别值得一提的是,o3 以十倍 o1 的算力刷新了编程、数学、视觉推理的 SOTA 成绩,接近“天才水平”。另外,OpenAI 开源了编程神器 Codex CLI,并且在一夜之间迅速爆火。

不出所料,满血版o3真的来了。

OpenAI 联合创始人 Greg Brockman 以及首席研究官 Mark Chen 刚刚带队开启了一场时长 20 分钟的线上直播。

这次有 o3 ,同时还有下一代推理模型 o4-mini 。它们实现了“用图像思考”这一情况是首次出现的,可称得上是视觉推理方面的极为出色的作品。

显卡挖矿算力表_用图像思考在线阅读_

两款模型在不到 1 分钟的时间里,就像 AI 智能体一样,能够自主地进行判断,并且将 GPT 内置工具组合起来运用,从而生成了详尽周全的答案。

其中包含搜索网页这一行为,还包含用 Python 来分析上传的文件及数据,同时包含对视觉输入进行深度推理,甚至包含生成图像这一操作。

_显卡挖矿算力表_用图像思考在线阅读

在 Codeforces 基准测试中,o3 刷新了 SOTA。在 SWE-bench 基准测试中,o3 刷新了 SOTA。在 MMMU 基准测试中,o3 刷新了 SOTA。o3 不论是在编程领域,还是在数学领域,不论是在科学领域,还是在视觉感知领域,都树立了新标杆。

尤其是,在图像、图表、图形分析方面,o3 的表现格外突出。它能够深入地去挖掘视觉输入所包含的细节。

_用图像思考在线阅读_显卡挖矿算力表

用图像思考在线阅读__显卡挖矿算力表

在 Codeforces 里,新模型的得分都超过了 2700 分,并且在全球的参赛者当中处于前 200 名的位置。

用奥特曼的话来说,「接近或达到天才水平」。

_显卡挖矿算力表_用图像思考在线阅读

不过,这个智力的代价是,需要投入o1十倍以上的算力。

_用图像思考在线阅读_显卡挖矿算力表

相较于满血版的 o3,o4-mini 凭借其小巧的外形、高效的性能以及高性价比的优势而脱颖而出。

在 AIME 2025 测试里,o4-mini 与 Python 解释器相配合,获得了 99.5%的高分,在这项基准测试中几乎是完美拿下的。

它在数学领域的性能优于 o3-mini,在编程领域的性能优于 o3-mini,在视觉任务领域的性能优于 o3-mini,并且在非 STEM 领域的性能也优于 o3-mini。

此外,o4-mini 能够支持的使用额度远远超过 o3。它在高并发场景中是最为优选的。

总之,o3 很擅长编码,o4-mini 也很擅长编码。基于此,OpenAI 开源了一个能在终端运行的轻量级编程 AI 智能体,即 Codex CLI。

显卡挖矿算力表__用图像思考在线阅读

显卡挖矿算力表__用图像思考在线阅读

_用图像思考在线阅读_显卡挖矿算力表

从今天开始,GPT Plus 用户会最先体验到 o3、o4‑mini 和 o4‑mini‑high。同时,Pro 用户也会第一时间体验到这些。并且,Team 用户同样会在第一时间体验到。这些新的体验将取代之前的 o1、o3‑mini 和 o3‑mini‑high。

这两款模型会通过 Chat Completions API 以及 Responses API 来向所有开发者提供。

显卡挖矿算力表__用图像思考在线阅读

推理模型,首次会用工具了

在直播演示里,Greg 首先展示了一个价值。有些模型具有质的飞跃的特点,GPT-4 就是其中之一,而今天的 o3/o4-mini 同样具备这样的特点。

他表示,o3 使得他以及 OpenAI 的同事目睹了 AI 大模型能够达成“从未见过的事”。例如,它自身就提出了一个极为出色的系统架构构想。

这两款模型令人惊讶的地方在于,它们不只是单纯的模型,而是一个“AI 系统”。

它们与之前那些推理模型存在最大的区别,即首次被用于训练各种工具。并且它们会在 CoT 中运用这些工具去解决难题。

_用图像思考在线阅读_显卡挖矿算力表

在人类的最后考试里,o3 模型的表现能够与 Deep Research 相媲美,并且它的速率比 Deep Research 更快。

o3 为了攻克一个复杂难题,曾经连续使用约 600 次工具调用。它们生成的代码片段是一次性的,这些代码片段真正在代码库中发挥了效用。

Greg 表示,自己最为珍视的一点在于它们的软件工程能力。它们不仅具备编写一次性代码的能力,还能够在真实的代码库中真正地发挥作用。

它在浏览 OpenAI 的代码库这件事上,比 Greg 做得更出色。这便是它极为有用的所在之处。

用图像思考在线阅读__显卡挖矿算力表

_用图像思考在线阅读_显卡挖矿算力表

在指令跟随以及智能体工具使用评估方面,o3 和 o4-mini 与工具结合后的准确性是最高的。

显卡挖矿算力表_用图像思考在线阅读_

外部专家评估表明,在处理真实世界任务时,o3 的严重错误率比 o1 降低的幅度还要大 20%。

之所以取得如此大的进步,是因为 RL 中持续的算法进步在起驱动作用。按照 Greg 的说法,在引擎盖下最令人惊叹的是,当前它依然只是在预测一个 token 之后,再加入少许 RL 的 AI,就已经达到了这样的程度。

在实操过程中,o3 是怎样结合使用工具来解决复杂任务的呢?

多模态团队的研究员 Brandon McKinzie 上传了一张海报,这张海报是 2015 年完成的一个物理实习相关的海报,他让 GPT 去估算质子同位标量电荷的数量。

用图像思考在线阅读__显卡挖矿算力表

o3 开始进行推理的时候,会依次去分析图片里的内容,并且要确定 Brandon 提出问题的正确数量。事实上,海报截图当中并没有包含最终的结果。

o3 开始进行联网搜索以查找最新的估算值,在几秒钟的时间里读完了数十篇论文,这样就节省了大量的时间。

结果显示,模型计算出了一个值,这个值未经归一化。将这个未经归一化的值乘以一个特定常数后,又可以重新归一化。最终的结果与实际比较接近。

显卡挖矿算力表__用图像思考在线阅读

后训练团队的研究员 Eric Mitchell 为 GPT 开启了记忆功能。接着,让 o3 去查找新闻,这些新闻要与自身兴趣相关,并且还要足够冷门。

o3 凭借已有的对潜水和演奏音乐的了解,主动进行思考并调用工具,从而找出了一些与之相关的有趣内容。

研究人员录制了健康珊瑚的声音,然后用扬声器播放这些录音,这样做加速了新珊瑚和鱼类的定居。

同时,它还能绘制出可视化的数据,便于直接放入博客文章当中。

显卡挖矿算力表__用图像思考在线阅读

o3 用于前沿科研领域时会非常有用,将其模型集成到日常工作流中也会非常有用。

在解决 AIME 数学竞赛问题时,要求 o3 观察 2x2 方格网格,然后计算出满足约束条件的颜色方案数量。

_显卡挖矿算力表_用图像思考在线阅读

它生成了一个暴力程序,接着用 Python 解释器来运行这个程序,最终得到了正确答案 82。

即便如此,它的解题过程并非优雅简洁。对此,o3 自动进行识别,然后尝试简化解决方案,以找到更聪明的办法。

显卡挖矿算力表_用图像思考在线阅读_

它会自动去核查答案是否可靠,并且最后还给出了文字方面的解决方案,这样能方便向人类进行解释。

研究人员感到惊讶,在训练 o3 时,既没有运用类似的策略,也没有提出简化的要求,全部都是由 AI 自主学习来完成的。

用图像思考在线阅读__显卡挖矿算力表

研究人员在编码任务中让 o3-high 去找出一个错误,这个错误是名为 symbols 的软件包的错误。

模型首先会主动去检查指令中所说的问题是否存在,接着会尝试去了解代码储存库的概况。

_用图像思考在线阅读_显卡挖矿算力表

它发现了一种能够用于解释类继承信息的 Python 结构,并且可以进行 mro 操作。凭借已有的世界知识,它找到了问题的所在。

用图像思考在线阅读__显卡挖矿算力表

最后,o3通过对互联网进行浏览,找到了一个解决方案,这个方案是最优的,它叫做 apply_patch。

用图像思考在线阅读__显卡挖矿算力表

从推理成本方面来讲,o3 以及 o4-mini 不仅是到目前为止最为智能的模型,而且与 o1 和 o3-mini 相比,它们在效率方面和成本控制方面都树立了新的标杆。

在 2025 年的 AIME 数学竞赛中,o3 的推理成本和性能都比 o1 更优。同时,o4-mini 的成本-性能也比 o3-mini 更优。

如果你需要一个模型,这个模型要小且快,并且是多模态推理模型,那么 o4-mini 将是极好的选择。

显卡挖矿算力表_用图像思考在线阅读_

用图像思考在线阅读_显卡挖矿算力表_

o4-mini 能够自主选择工具、计划方法来解决问题,在数学方面没问题,在商业方面没问题,在科学方面没问题,在体育方面没问题,在视觉推理方面也没问题。

在解决体育问题时,o3 具备联网获取最新数据的能力,并且考虑到了最近一个赛季以及 2022 - 23 年联赛 ERA 略升之后回归正常这一情况。

用图像思考在线阅读_显卡挖矿算力表_

给出的数据大概值,存在偏差,不够精确。它错误地认为偷垒增加仅仅是因为投球计时器,而忽略了基地垫扩大以及限制牵制次数这些更直接的原因。

显卡挖矿算力表__用图像思考在线阅读

显卡挖矿算力表_用图像思考在线阅读_

用图像思考在线阅读__显卡挖矿算力表

显卡挖矿算力表__用图像思考在线阅读

显卡挖矿算力表__用图像思考在线阅读

左右滑动查看

用图像思考,视觉推理新巅峰

更引人注目的是,o3 在视觉推理方面全面超越了前代。o4-mini 同样在视觉推理上全面超越了前代。它们都成为了 o 系列最新的视觉推理模型。

它们通过在思维链中运用图像来进行推理,从而实现了视觉感知方面的重大突破。

OpenAI 首次达成了这样的成果:模型在其思维链中能够借助图像进行思考,而不只是单纯地观看图像。

早期的 OpenAI o1 是这样的,而 o3 和 o4-mini 与之类似,它们能够在回答之前进行更久的思考,并且在回答用户之前,其内部会生成很长的思维链。

o3 和 o4-mini 不仅可以在思考过程中具备“看”图片的能力。这种能力是借助工具对用户上传的图像进行处理而达成的,例如对图像进行裁剪、放大、旋转等较为简单的图像处理操作。

更厉害的是,这些功能都是原生的,不需要依赖额外的专业模型。

在基准测试里,这种通过图像来思考的能力,并且不需要依赖网络浏览,它的性能超越了前代多模态模型的性能。

o4-mini 在视觉搜索(V*)领域创下了 SOTA。

特别是在 V*基准测试方面,两款模型达到了 96.3%的准确率,几乎攻克了这项挑战,这标志着视觉推理技术取得了重大的飞跃。

_显卡挖矿算力表_用图像思考在线阅读

GPT 增强的视觉智能,能够以更彻底的方式分析图片,能够以更精准的方式分析图片,能够以更可靠的方式分析图片,从而帮你解决更棘手的问题。

它可以把高级推理和网页搜索、图像处理等工具进行无缝结合。它能够自动对图片进行放大、裁剪、翻转或者优化操作。即便照片存在不完美的情况,它也能够挖掘出其中的有用信息。

比如,你能够上传一张经济学作业的照片,接着就能获得一步步的解答;或者你可以分享一个程序报错的截图,从而能够快速找出问题的根源。

这种方法开启了一种新的计算扩展方式,且是在测试时进行的。它将视觉和文本推理完美地融合在了一起。

它们在多模态基准测试中表现顶尖,这体现了出来。这标志着多模态推理向前迈出了重要的一步。

视觉推理实战

用图像思考可以与GPT更加轻松的互动。

你可以通过直接拍张照片来进行提问,不必担心物体的摆放情况。无论是文字是否颠倒,还是一张照片中存在多道物理题,都无需担忧。

即使东西乍一看不太清楚,视觉推理也能让模型放大看清细节。

比如,有一个笔记本放在桌子上,其位置几乎与视线平行。这个笔记本上面有两行字,字比较模糊。人直接去看的话,也很难将其认出来。

GPT 能够把图片放大来查看,当发现字是倒着的时候,接着把它旋转过来,最后成功地将其辨认出来。

显卡挖矿算力表_用图像思考在线阅读_

上下滑动查看

显卡挖矿算力表__用图像思考在线阅读

上下滑动查看

用图像思考在线阅读_显卡挖矿算力表_

上下滑动查看

显卡挖矿算力表__用图像思考在线阅读

上下滑动查看

OpenAI 最新的视觉推理模型具备与 Python 数据分析、网页搜索、图像生成等工具相配合的能力,能够以创意且高效的方式解决更为复杂的问题,首次为用户带来了多模态智能体验。

_显卡挖矿算力表_用图像思考在线阅读

显卡挖矿算力表__用图像思考在线阅读

编程智能体Codex CLI全开源

接下来,OpenAI 称会展示 codex 遗产的部分延续情况,并且会发布一系列应用程序,这些应用程序将会对编程的未来进行定义。

OpenAI 开源了一项新的实验性工具,除了新模型之外,这个工具是 Codex CLI,它是一个可在终端运行的轻量级编程 AI 智能体。

它的作用,就是在需要的地方安全地部署代码执行。

它在本地计算机上直接运行,目的是把 o3 和 o4-mini 这类模型的强大推理能力充分发挥出来,并且很快会支持像 GPT-4.1 等更多模型的 API 调用。

向模型传递屏幕截图或低保真草图,同时结合访问本地代码的权限,就可以在命令行中体验到多模态推理的强大功能。

他们启动了一项资助计划,金额为 100 万美元。这项计划是用以支持相关项目的。这些项目使用的是 Codex CLI 和 OpenAI 模型。

GitHub项目发布之后,Codex CLI已经获得了 3.3k 颗星,这表明它的响应度非常高。

_用图像思考在线阅读_显卡挖矿算力表

项目地址:

显卡挖矿算力表__用图像思考在线阅读

现场,OpenAI 的演示人员依据网上的帖子,借助 Codex 和 o4 Mini 制作了一个极为酷炫的图片转 ASCII 生成器。

先截一张图,然后将其拖进终端里,之后就可以把这张图交给 Codex。

显卡挖矿算力表__用图像思考在线阅读

令人惊叹的是,你可以实际看到它在思考,还可以直接运行工具。

用图像思考在线阅读__显卡挖矿算力表

Codex完成后创建了一个 ASCII HTML 文件,并且还生成了一个能够控制分辨率的滑块。

也就是说,从现在起,电脑上的所有文件都能够放进 Codex 中。并且,你正在处理的代码库也可以放进 Codex 里。

在现场,研究者们还成功添加了一个网络摄像头API。

用图像思考在线阅读__显卡挖矿算力表

Scaling强化学习,依旧有效

在 OpenAI o3 的研发过程里,研究者观察到了这样一个现象:大规模的强化学习也遵循着 GPT 系列在预训练时所显现出来的规律。这个规律就是“投入越多的计算资源,就能够获得越好的性能”。

他们沿着这条 Scaling 路径前行。这次主要聚焦于强化学习(RL)。他们将训练计算量提升了一个数量级,同时也把推理阶段的思考量(或称推理计算量)提升了一个数量级。即便如此,依然观察到了显著的性能提升。

_用图像思考在线阅读_显卡挖矿算力表

技术报告:

这表明只要给予模型更多的时间让其去进行“思考”,那么它的表现就会不断地提升。

o3 与前代 o1 相比,在相同延迟和成本的情况下能展现出更高的性能。并且,更让人兴奋的是,要是允许它思考更长时间,它的性能还会持续上升。

_用图像思考在线阅读_显卡挖矿算力表

此外,OpenAI 进行了强化学习训练。通过这种训练,o3 和 o4-mini 掌握了工具使用的智慧。它们不仅学会了“如何用”工具,还懂得了“何时用”工具。

它们能够完全访问 GPT 内置的工具,同时也能够通过 API 中的函数调用功能来接入用户自定义的工具。

这种能力使得模型在开放式场景下能够更加得心应手。尤其在面对需要视觉推理以及包含多步骤的复杂任务时,它表现得更为出色。

而且,从前面的诸多案例里,我们已经获取到了关于模型工具调用能力的关键部分。

那些提前拿到内测资格的大佬们,纷纷被o3震惊了。

在临床领域,它的表现十分突出,堪称现象级。在医学领域,它的表现也很卓越,同样堪称现象级。它在诊断分析方面,仿佛是顶尖专家所写。它在治疗建议方面,也仿佛是顶尖专家所出。

用图像思考在线阅读_显卡挖矿算力表_

用图像思考在线阅读_显卡挖矿算力表_

o3 正在成为这场变革的主导者,无论是在加速科学发现方面,还是在优化临床决策方面,亦或是在推理跨领域的创新方面。

参考资料:

 
打赏
 
更多>同类资讯

推荐热播视讯

推荐视频

    Copyright © 2017-2021  二手钢结构网  版权所有  
    Powered By DESTOON 鄂ICP备2025106939号-1