五一假期虽无DeepSeek-R2,但Qwen3系列模型震撼全球AI圈

   日期:2025-05-23     来源:网络整理    作者:佚名    浏览:220    
核心提示:文 观察者网心智观察所 尽管市场热传的DeepSeek-R2并未在五一假期期间到来,但提前"抢跑"的Qwen3系列模型

_香橙派和树莓派通用吗_树莓派中国官网

文 观察者网心智观察所

尽管DeepSeek-R2这款产品并未在五一假期期间如约而至,然而,Qwen3系列模型却已抢先一步,在全球AI领域引发了广泛的关注和强烈的反响。

自4月29日问世以来,通义千问Qwen3不仅凭借一系列亮眼的数据令人印象深刻,更在于其8B、4B、1.7B、0.6B等模型在开源领域展现出的创新玩法,当这款软件在旧款手机乃至树莓派上也能流畅运行,并处理Token时,一种前所未有的想象空间似乎已经由此开启。

树莓派中国官网_香橙派和树莓派通用吗_

(海外极客在树莓派上成功部署了Qwen3)

参数更少,表现更优

树莓派中国官网_香橙派和树莓派通用吗_

DeepSeek-R1凭借其庞大的6710亿参数规模(其中370亿参数被激活),在全球大型模型排行榜上崭露头角。与此同时,外界开始关注中国学术界和工业界在单纯追求算力和模型规模之外,所探索出的全新模式。Qwen3的问世,无疑将这种具有中国特色的“炫技”风格推向了新的高度。

阿里云新推出的Qwen3模型,凭借其高达235B的总参数量(其中激活参数达22B),在性能排行榜上交出了一份令人瞩目的成绩单。在多项业界基准测试中,包括AIME25(数学推理测试)、LiveCodeBench(代码能力测试)、BFCL(工具和函数调用能力测试)以及Arena-Hard(指令微调LLM基准测试)中,均实现了顶尖的表现。这表明通义千问在规模上仅为DeepSeek-R1总参数量的三分之一,却实现了甚至超越了后者的性能水平。

_香橙派和树莓派通用吗_树莓派中国官网

特别值得关注的是,Qwen3系列模型在全球顶尖模型的较量中同样展现了卓越的能力:在与Gemini 2.5 Pro的较量中,Qwen3-235B在众多基准测试中取得了与对方相当的成绩;在挑战性极强的数学推理测试(例如AIME)中,它甚至超越了OpenAI的o1和o3-mini等强劲的模型;而在编程基准测试LiveCodeBench上,它也展现出了相较于o3-mini的明显优势。

Qwen3的核心技术突破是什么?

该解决方案的核心在于其独创的“混合推理模型”结构,该结构将“思考模式”与“非思考模式”完美融合于单一模型之中。在进入思考模式时,模型能够进行深层次的推理,经过一系列的逐步思考后提供答案,这种模式特别适用于解决复杂问题;相对地,在非思考模式下,模型能够迅速作出反应,非常适合处理简单问题。这种设计具有灵活性,它使得用户可根据任务的难易程度来调整模型“思考”的深度,从而在推理效果和计算开销之间实现更加理想的平衡。

同时,阿里云在大型模型所需的计算资源和部署费用方面也取得了显著提升。Qwen3的部署费用显著降低,仅需4张H20芯片即可完成满血版的部署,其成本大约是DeepSeek-R1的三分之一。对于8B及以下规模的模型,其硬件需求已经被证实可以非常宽松。这一成本上的优势无疑将赋予其更强大的商业化潜力,并扩大其应用范围的可能性。

中国AI,全球影响

_树莓派中国官网_香橙派和树莓派通用吗

DeepSeek-R1标志着我国AI领域在国际舞台上的首次重大进展,而Qwen3则是对这一成就的进一步深化与稳固。我国在大模型领域的发展正逐步形成独特的技术路径和创新体系,同时,其与国际顶尖模型的竞争实力也在逐渐增强。

阿里云持续对外公开其Qwen3系列模型,这一举措的战略价值同样不容小觑。

Qwen3开源的内容不仅包括密集型模型,还涵盖了混合专家(MoE)模型。这些模型包括0.6B、1.7B、4B、8B、14B、32B等不同规模的密集型模型,以及30B-A3B、235B-A22B的MoE模型。值得一提的是,在业界中颇为少见的是,这些模型都遵循Apache 2.0许可进行开源,使得开发者能够更加灵活地利用这些模型进行商业化的应用。

这种开源策略与国际巨头形成鲜明对比。

面对OpenAI和Anthropic等企业选择对其顶级模型实行闭源策略,我国大型模型企业坚持开源策略,这不仅降低了技术进入的门槛,而且切实体现了推动人工智能民主化的初衷。这一价值在全球范围内赢得了广泛的认可与关注,正如TechCrunch的报道所证实的那样:中国推出的Qwen等模型系列的成功崛起,已经给美国实验室如OpenAI等提供了更高级AI技术的企业带来了不小的挑战。

在DeepSeek-R1横空出世之前,Qwen模型家族已在开源大语言模型应用生态中确立了显著地位,其影响力遍及全球南方国家的小语种应用开发,以及众多细分研究领域的AI4S探索。Qwen早已成为了一个备受瞩目的国际品牌,吸引了全球范围内的超过3亿次下载。开发者已在Hugging Face平台上成功构建了超过十万种基于Qwen的派生模型,这一系列模型因而成为了全球范围内应用最广泛的开放源代码人工智能模型之一。这种生态效应的规模正在日益增强,成为中国人工智能领域发展的强劲动力。

Qwen3的问世,标志着我国人工智能企业凭借不断的科技创新与开放合作策略,在全球人工智能领域的竞争态势中取得了新的突破。

商业落地,依然漫漫

树莓派中国官网__香橙派和树莓派通用吗

尽管通义千问Qwen3在技术层面取得了显著成就,然而,将这些技术突破转化为商业价值,仍需克服众多困难。正如阿里云首席技术官周靖人所说,若不对基础模型进行优化调整,将难以直接满足业务需求。在企业应用领域,大模型还需应对定制化、成本效益、安全合规等多方面的挑战。

阿里云正利用百炼平台尝试攻克大模型落地过程中的难题,使得开发者仅需简单的“拖拽”操作,就能在短短5分钟内打造出一款大模型应用,并在数小时内炼制出个性化的专属模型,显著降低了开发难度。然而,必须坦言,百炼平台在面向大模型商业应用的开发者群体中的知名度,与字节跳动的COZE相比,仍存在较大差距。

何况,现阶段大模型的商业转化途径尚不清晰,如何制定恰当的收费方案、如何与现有业务相融合,以及如何规避同质化的市场竞争,这些问题不仅是阿里云所面临的挑战,也是所有基座大模型研发者必须面对的课题。

值得注意的是,阿里集团的模型应用策略似乎正在经历一场变革。过去,它主要关注B端市场,而现在正逐渐转向C端用户。上个月,夸克推出了全新的功能,同时通义APP也在不断进行升级和改版,这些举措均针对C端用户的需求。由此可见,阿里云正在努力在更广泛的市场领域寻找大模型的新增长点。

通义千问Qwen3的崛起标志着我国AI技术的最新成就,然而,从技术卓越迈向商业成功,尚需跨越一段漫长的征程。阿里云如何在全球AI竞争的激烈环境中保持技术优势,并有效解决商业落地的挑战,这将成为其未来在AI领域地位的关键。中国企业无疑已占据全球人工智能产业的最前沿,在东西方科技势力此消彼长的变革浪潮中,彰显出了前所未有的强大实力和坚定信心。

来源|心智观察所

 
打赏
 
更多>同类资讯

推荐热播视讯

推荐视频

    Copyright © 2017-2021  二手钢结构网  版权所有  
    Powered By DESTOON 鄂ICP备2025106939号-1