克雷西 发自 凹非寺
量子位 | 公众号 QbitAI
谷歌紧跟 o4-mini,上新了 Gemini 2.5 Flash preview 版本。
Flash 更注重效率,在大模型竞技场上排名并列第二,而第一是自家的 Gemini 2.5 Pro。
这样的表现直接将 Gemini 2.5 Flash 的性价比提升到了满的状态。
它是一款混合推理模型,能够自由设定思考深度,还能帮助预算不足的用户进一步控制推理成本。
目前,preview 版本已在 Google AI Studio 中上线,且该版本不同于 Gemini 网页版中的版本。同时,preview 版本也已在 Vertex AI 的 API 中上线。
主打性价比,思考深度自由调控
在大模型的竞技场上,历经 3000 多轮的对战。Gemini 2.5 Flash取得了 1392 分的成绩,并且它与 Grok - 3、GPT - 4.5 等模型处于并列第二的位置。
自家的这款产品综合成绩仅次于 Pro 版,由此可见,在竞技场中能够战胜谷歌的只有谷歌自身。
在编程子榜单中,它和 Pro 版并列第一;在复杂提示子榜单中,它和 Pro 版并列第一;在长文本子榜单中,它也和 Pro 版并列第一。
在大模型竞技场推出的 WebDev 榜单中,Gemini 2.5 Flash 处于第七的位置,它超过了之前一代(2.0)的 Pro 版本。
该表现是在一系列高难度数据集上展现的。
有一套“人类最后的考试”是由 1000 多名学者提出的。这套测试集发布时,没有任何一个模型的得分能超过 10%。而现在 Gemini 2.5 Flash 的成绩达到了 12.1%。
Gemini 2.5 Flash 是 Flash 版本。在谷歌自家的模型里,它是至今性价比最高的版本。
它的价格是每百万输入 0.15 美元、每百万输出 0.6 美元、每百万推理 Token 3.5 美元,相较于 o4-mini 要便宜许多。
实际上,按照输入输出 3:1 的比例来计算的话,在大模型竞技场 1400 分附近,Gemini 2.5 Flash 是一款比较便宜的模型。
请注意横轴数字非单调下降
对于价格较高的推理过程,Gemini 2.5 Flash 具备自由深度控制的功能,这种控制甚至可以完全关闭。通过这一功能,能够帮助预算不足的用户节省成本。
如果不进行设置,模型会依据 prompt 自行判断合适的思考深度,不会在简单问题上过度思考,以此来平衡成本。
o4-mini的竞争者?
在 HackerNews 这个平台上,Gemini 2.5 Flash 引起了大家热烈的讨论。
有人认为,谷歌不会进行炒作。然而实际上,谷歌的性价比是非常高的。并且,谷歌正在赢得人工智能竞赛。
有人认为,价格较为便宜。然而,模型有时会表现出偷懒的情况,但这是在预料范围内的。
实际应用需看具体任务。可以确定的是,部分人已经认可了 Gemini 2.5 Flash 的性价比。
另外,Gemini 的 Flash 版本与 OpenAI 的 mini 相似,并且上线时间相近,所以 Gemini 2.5 Flash 被视为 o4-mini 的竞争者。
从谷歌官方发布的成绩单来看,在一些难度较高的测试集中,Gemini 2.5 Flash 的表现比 o4-mini 稍逊一些。
如果考虑价格的话,这样的差距似乎是可以被接受的。并且在实际的任务当中,也并非总是要求模型能够应对那些最难的问题。
在实际环境里,Gemini 2.5 Flash 的表现究竟怎样呢?先来看它的编程能力。
安排著名的小球测试变体。这个变体是一个大五边形,里面包含了三个缺一边的小五边形,且这三个小五边形之间互不交叉。小球会在其中按照物理规律进行运动。
部分 Gemini 2.5 Flash 是五边形的,它被正确绘制出来了。然而,对于小球,却是完全读乱后进行了回复,即便经过反复调整,依然出现了翻车的情况。
再看 o4-mini,它的运行结果满足提示词的要求。同时,它的代码更为精简,仅有 128 行,而 Gemini 版本的代码超过了 500 行。
这一轮,o4-mini胜。
再看数据分析能力。
我们找来了最近某班次航班的飞行记录,此记录包含了从起飞到降落过程中在各个时间点的位置信息、高度信息、速度信息以及航向信息等。这些信息一共有 1700 余个数据点。
任务是绘制出高度随时间变化的折线图以及速度随时间变化的折线图,这涉及到时区和计量单位的换算。原始数据中时间是 UTC 时间,需要换算成北京时间;高度是英尺,要换算成米;速度是节,需换算成公里每小时。
我们上传了数据文件。一开始,Gemini 没有选择外挂。它把数据全都写进了 Python 代码,这导致代码变得非常冗长。
提示之后,Gemini 对代码进行了改进,进而得到了正确的图像。
o4-mini 这边,结果是正确的。然而,它没有仔细考虑坐标轴文本的长度,致使横轴上的所有标签都聚集在了一起,呈现出挤成一团的状态。
Gemini 的版本带有网格线,相比之下,这样能更清晰地看出各点对应的大致数值。
这一轮,Gemini胜。
最后一轮,来看下两款模型的多模态理解能力。
英伟达最近一个月的股票有其相应的形势图。我们让两款模型分别去对最佳的入手时机进行分析。
它们从图中准确地找到了最低点以及与之对应的时间。若要评判回答质量,直接查看它们的输出结果即可。
总的来说,若不将价格纳入考虑范围,Gemini 2.5 Flash 与 o4-mini 相比确实存在一些让人不太满意的地方。然而,在实际应用中,当考虑到性价比时,其综合竞争力或许就会展现出来。
参考链接: