OpenAI 在周三发布了新款 AI 模型 o3 和 o4-mini,它能够模仿人类的推理过程,去解决复杂编程以及视觉任务方面的推理。与此同时,该公司还发布了开源 AI 代理 CodeX CLI,此工具可用于帮助用户执行编程任务,以此来提升市场竞争能力。
OpenAI 此次推出的主要新型推理模型是 o3 ,并且还发布了一款更为小型的模型,名为 o4-mini 。去年 9 月 OpenAI 首个推理模型 o1 问世,这一发布得以延续,当时 o1 主要是致力于解决复杂问题,并且通过多步骤的方式来进行思考和作答。
该公司称,新发布的 o3 模型在响应用户提示前会花费更多时间去计算,其目标是处理与科学、数学及编程相关的更复杂多步骤问题。通过 o3,用户能够上传白板笔记、草图以及其他图像内容,让 AI 对其进行分析和讨论。这些模型还具备对图像进行旋转、缩放等编辑操作的能力。
跑分进步 首次实现“图像思维”
最新测试结果显示,o3 在 AIME 2024 数学竞赛题目中的准确率为 91.6%,o4-mini(无工具版本)在 AIME 2024 数学竞赛题目中的准确率为 93.4%,这远高于前代模型 o1 的 74.3%。同时,在 AIME 2025 题目中,o3 的准确率为 88.9%,o4-mini 的准确率为 92.7%。在 Codeforces 编程竞赛评分里,支持终端工具的 o3 取得了 2706 的 ELO 分数,o4-mini 取得了 2719 的 ELO 分数。o3 的 2706 ELO 分数显著领先于 o1 的 1891,o4-mini 的 2719 ELO 分数显著领先于 o3-mini 的 2073。这显示出它们在复杂数学与代码任务中具有强大的推理与执行能力。
同时,在博士水平科学问答中,o3(无工具)的准确率是 83.3%,它比前代模型 o1 的 78.0%要高。而 o4-mini(无工具)也紧跟在后面,达到了 81.4%。在右图所展示的“人类最后的考试”这种高难度跨学科题目里,开启 Python 并且使用浏览工具的 o3 模型,其准确率达到了 24.9%。这个准确率明显比 o1-pro 的 8.12%以及 o3-mini 的 13.4%要高。这表明多工具组合在处理复杂问题方面有着巨大的潜力。值得留意的是,Deep Research 实验系统在这次测试中成绩最为突出,准确率达到了 26.6%。OpenAI 新模型在推理链方面有持续进步。OpenAI 新模型在跨模态理解方面有持续进步。OpenAI 新模型在工具协同方面有持续进步。这进一步突显了这些方面的进步。
OpenAI 新发布的 o3 模型在多模态推理方面,在多项视觉推理测试中全面超越前代模型 o1。在 MMMU 大学级视觉问题解决任务中,o3 的准确率达到 82.9%,o1 的准确率是 77.6%,o3 领先于 o1。o4-mini 在该任务中表现相近,为 81.6%。在 MathVista 视觉数学推理测试里,o3 获得了 86.8%的成绩,这个成绩比 o1 的 71.8%要高很多;同时,o4-mini 达到了 84.3%。在 CharXiv 科学图表推理测试中,o3 的准确率是 78.6%,远远领先于 o1 的 55.1%,而 o4-mini 达到了 72%。整体而言,o3 在对图像与文本进行结合的任务处理上展现出了极为强大的能力。o4-mini 不但保持了高性能,还提升了响应速度以及成本效率,这充分展现出了 OpenAI 多模态模型在复杂视觉任务中取得的显著进步。
与此同时,o4-mini 提供了价格、速度以及性能之间的一种“有竞争力的平衡”,这是开发者在选择 AI 模型来为其应用提供支持时常常会考虑的三大因素。如今,这两款模型已经向 OpenAI 的付费用户开放了。
OpenAI 在公告里提及,o3 以及 o4-mini 是最先能够进行“图像思维”的 AI 模型。
这是我们首次推出一个推理模型,这个模型能够独立使用全部的 GPT 工具。这些工具包括网页浏览、Python 编程、图像理解和图像生成能力。这一情况使得它们在解决复杂的多步骤问题时变得更加高效。同时,这也朝着自主执行任务的方向迈出了真正的一步。
该公司进行了解释,这表明“它们不但能够观看图片,而且还能够把视觉方面的信息直接融合到推理的链条里面去”。
OpenAI称,在 SWE-bench verified 测试中,o3 的表现达到了当前的最先进水平,且未使用自定义结构,此测试主要用于评估编程能力,o3 的得分为 69.1%。同时,o4-mini 的得分也很出色,达到了 68.1%。对比来看,此前 OpenAI 最好的模型 o3-mini 在该测试中的得分是 49.3%,与此同时,Anthropic 的 Claude 3.7 Sonnet 的得分是 62.3%。
DeepSeek压力下 OpenAI也想开源了?
OpenAI 在 2022 年底推出了 GPT,这引发了生成式人工智能的热潮。当时推出的这款产品搭载的是 GPT - 3.5 模型。之后,该公司陆续发布了多个系统,这些系统日益复杂,其中包括多个推理模型。OpenAI 目前正承受着来自中国新兴企业 DeepSeek 的压力,也面临着 Anthropic 公司的压力,同时还遭遇着马斯克旗下 xAI 等公司的压力。这些公司持续推出一系列拥有类似前沿能力的 AI 模型。
分析觉得,编程在生成式 AI 应用里属于增长最为迅速的领域之一,同时也是 OpenAI 的一个重要竞争战场。Anthropic 以及谷歌母公司 Alphabet 都在大力宣扬其新一代 AI 系统的编程能力。像 Cursor 的开发商 Anysphere 这样的其他创业公司,也凭借着面向程序员的 AI 工具而获得了广泛的关注。
为在竞争激烈的市场中获取优势,OpenAI 在周三宣布推出 Codex CLI。它是一款 AI 代理,旨在与像 o3 这样的模型协同工作。这款产品能够帮助用户完成编程任务。并且该产品是开源的,这意味着它将免费向用户开放,还可以直接在用户的计算机终端程序中运行。
奥特曼曾表示,公司正在开发一个推理模型的开源版本,并且计划在未来几个月内发布。此举的目的是为了回应 DeepSeek 旗下开源系统 R1 走红后所带来的市场影响。
OpenAI 表示,在未来几周内会推出 o3-pro,它是 o3 的一个升级版本,会利用更多计算资源来生成回答,并且仅对 GPT Pro 订阅用户开放。奥特曼之前曾表明,o3 和 o4-mini 或许是 OpenAI 在 GPT-5 发布之前推出的最后一批独立推理模型。GPT-5 有望将传统模型(例如 GPT-4.1)与推理模型相融合,从而达成统一的发展方向。