OpenAI发布o3和o4-mini模型:ChatGPT能力重大飞跃,支持智能工具使用

   日期:2025-04-17     来源:网络整理    作者:佚名    浏览:156    
核心提示:OpenAI正式发布o3和o4-mini:最强推理模型、能够“思考”图片

4 月 17 日消息,今日凌晨的直播里,OpenAI 正式推出了 o3 以及 o4-mini 模型。IT 之家对相关内容进行了汇总,如下:

OpenAI 官方进行介绍,称这是其在 o 系列模型中最新训练出来的成果。它能够在回答之前进行更长时间的思考。同时还宣称自己是“迄今为止 OpenAI 发布的最智能的模型”。这代表了 GPT 能力的一次重大跨越。无论是好奇的用户,还是高级研究人员,都将因此而受益。

推理最强的人_推理模型有哪些_

新的推理模型首次能够智能地使用 GPT 中的每一个工具,包括搜索网络。它还能够使用 Python 来分析上传的文件和其他数据。此外,它可以深入推理视觉输入,甚至能够生成图像。

关键的是,这些模型被训练用于推理使用工具的时机和方式,以产生详细且深思熟虑的答案,通常在不到一分钟的时间内就能做到,从而解决更复杂的问题。这使得它们能够更高效地处理多方面的问题,向着更智能、能够独立执行任务的 GPT 不断迈进。

性能表现

推理最强的人__推理模型有哪些

OpenAI 最强大的推理模型是 o3,它在编码领域、数学领域、科学领域以及视觉感知等领域都号称处于前沿地位,并且在包含 Codeforces、SWE-bench 和 MMMU 在内的基准测试中达到了新的 SOTA 水平。

OpenAI 表示,o3 很适合那些需要多方面进行分析且答案可能不那么明显的高级查询。它在对图像、图表和图形等视觉任务的分析方面表现得极为突出。在外部专家的评估里,o3 在较为困难的、现实世界的任务上比 OpenAI o1 少出现 20%的重大错误,尤其在编程、商业/咨询和创意构思等领域表现良好。

早期测试者强调了它具有作为思维伙伴的分析严谨性,还强调了它能够生成新颖假设并批判性地进行评估,尤其是在生物学、数学和工程的背景下。

OpenAI o4-mini 是一个被优化用于快速且具有成本效益推理的较小模型。它在自身的大小和成本方面展现出了“令人瞩目的性能”,尤其在数学、编码以及视觉任务上表现突出。在 AIME 2025 这个场合中,当给予 Python 解释器时,o4-mini 取得了 99.5%的得分。在专家的评估里,它在非 STEM 任务以及数据科学等领域比前辈 o3-mini 的表现更为优秀。因为它的效率高,所以 o4-mini 能够支持比 o3 高很多的使用限制,这使得它成为在推理方面能受益的问题的强大且具有高容量、高吞吐量的选项。

这两个模型与 OpenAI 的前几代推理模型相比,具有能够支持更加自然对话的特点。特别是当它们参考记忆以及过去的对话,从而使响应更加个性化且相关的时候。

_推理最强的人_推理模型有哪些

能够推理图片

OpenAI 在整个 OpenAI o3 的开发进程里,发现大规模强化学习呈现出与 GPT 系列预训练时所观察到的相同趋势,即“更多计算能力就等于更好性能”。OpenAI 通过重走扩展路径,在训练计算和推理时间上推进了一个数量级,并且仍看到了明显的性能提升,这验证了随着模型被允许进行更多思考,其性能会持续提升。与 OpenAI o1 相比,在相同的延迟和成本下,o3 在 GPT 中能提供更高的性能,也就是说如果让它思考更长时间,其性能会持续攀升。

推理模型有哪些__推理最强的人

从这个实例能看出,这些模型能够把图像直接整合到它们的思维链里。它们并非仅仅是观看图像,而是运用图像来进行思考。这开启了一种新的问题解决类别,将视觉和文本推理融合在了一起。

_推理模型有哪些_推理最强的人

人们能够上传白板的照片,也能够上传教科书的图表,还能够上传手绘的草图。即便这些图像存在模糊、颠倒或者质量很低的情况,模型依然可以对它们进行解读。借助使用工具,模型不但可以实时对图像进行操作,比如旋转、缩放,还可以将其作为推理过程的一部分来进行变换。

OpenAI 的 o3 和 o4-mini 能够完全访问 GPT 里的工具,并且可以通过 API 中的函数调用利用开发者自己的自定义工具。OpenAI 宣称,这些模型经过了训练,能够进行推理以解决问题,能够选择在何时以及如何使用工具,从而快速生成详细且经过深思熟虑的答案,通常在不足一分钟的时间内就能完成。

用户或许会询问:“加利福尼亚夏季的能源使用量跟去年相比是怎样的?”此模型能够搜索公共事业方面的数据,编写 Python 代码来进行预测,制作图表或图像,并且解释预测背后的关键因素,这些操作是通过多个工具的调用串联在一起的。推理能力让模型能够依据所遇到的信息进行反应和调整。它们能够借助搜索提供商多次对网络进行搜索,查看搜索结果,在需要更多信息时尝试进行新的搜索。

成本

从成本方面来讲,OpenAI 宣称 o3 和 o4-mini 是其曾经发布过的最为智能的模型。并且,它们通常比 o1 和 o3-mini 的效率要高。比如,在 2025 年的 AIME 数学竞赛里,o3 的性价比要比 o1 好。同样的,o4-mini 也比 o3-mini 更优秀。

推理最强的人_推理模型有哪些_

安全性

安全性方面,OpenAI 的 o3 和 o4-mini 对安全训练数据进行了全新构建。在生物威胁(生物风险)、恶意软件生成以及越狱等领域,新增了拒绝提示。这些经过更新的数据使得 o3 和 o4-mini 在其内部的拒绝基准测试中表现出色,比如在指令层次结构、越狱等方面。

OpenAI 除了在模型拒绝方面有出色表现,还开发了系统级的缓解措施,用来标记前沿风险领域的危险提示。就像在图像生成方面做的早期工作一样,OpenAI 训练了一个推理 LLM 监控器,这个监控器依据人类编写的可解释安全规范来工作。当把它应用于生物风险时,该监控器成功地标记了大约 99%的对话。

怎么使用

GPT Edu 用户将在一周后获得访问权限。免费用户在提交查询之前能够选择“思考”,以此来尝试 o4-mini。所有计划内的速率限制和之前那一组模型的速率限制是一样的,没有发生改变。

OpenAI 预计在几周内会发布 OpenAI o3-pro ,并且会支持所有工具。当下,Pro 用户依然能够访问 o1-pro 。

今天更新的内容体现了 OpenAI 模型的发展趋向,即把 o 系列的专业推理能力与 GPT 系列的自然对话能力以及工具使用能力进行融合。

 
打赏
 
更多>同类资讯

推荐热播视讯

推荐视频

    Copyright © 2017-2021  二手钢结构网  版权所有  
    Powered By DESTOON 鄂ICP备2025106939号-1