推广 热搜： 建筑钢结构厂房结构回收钢结构二手钢结构防腐钢结构回收厂房厂房出售

推理语言模型成主流，DeepSeek - R1引发热潮，相关研究经验总结

日期：2025-05-05 来源：网络整理作者：佚名浏览：89

核心提示：「推理革命」爆发100天：DeepSeek-R1复现研究全揭秘！,轨迹,算法,模态,编程,推理革命,深度思考模型,deepseek

最近，推理语言模型（RLMs）已经成为主流。

最新发布的、性能最强的LLM大都是推理模型。

特别是DeepSeek-R1发布了，这引发了广泛的社会影响，与此同时，也点燃了研究社区对推理的热情。

然而，DeepSeek-R1的某些实现细节尚未完全公开，举例来说，像DeepSeek-R1-Zero以及经过蒸馏的小模型这类细节并未完全开源。

因此，许多针对DeepSeek-R1进行复制的研究出现了（见图1），这些研究尝试通过相似的训练流程，利用完全开源的训练数据，来重现DeepSeek-R1的优异性能。

这些研究对监督微调（SFT）的可行策略进行了探索，还对基于可验证奖励的强化学习（RLVR）的可行策略展开了探索，重点关注数据准备，也重点关注方法设计，最终产出了不少宝贵经验。

为此，本文总结了近期的这些复现研究，以启发未来的探索。

_中国爆发革命_中国即将爆发革命

论文地址：

本文的结构大致对应DeepSeek-R1的训练流程，介绍当前在SFT方面的复制工作，介绍当前在RLVR方面的复制工作，介绍当前在其他增强推理能力技术方面的复制工作：

监督微调可提升语言模型推理能力，研究团队全面梳理了相关研究，这些研究是通过监督微调来增强语言模型推理能力的。

用可验证奖励强化学习来训练推理语言模型，研究团队介绍了近期的相关研究，该研究通过可验证奖励强化学习训练RLMs，还详细阐述了训练数据，以及学习算法和奖励系统设计。

研究团队注意到，尽管DeepSeek-R1推动了RLMs的训练，然而仍有许多监督策略未被探索，他们提出了RLMs的更多发展方向，其中包括奖励建模和偏好优化，并且分析了当前RLMs的优缺点，比如强大的分布外泛化能力以及偶尔的过度思考。

通过监督微调提升RLMs

推理数据集大多从收集问题起步，这些问题来自多样化领域，比如数学、科学、编程和谜题，其数据来源包含现有的基准测试或者网络爬取。

在收集原始数据后，通常会进行多轮过滤以提升数据质量，包括：

_中国即将爆发革命_中国爆发革命

为保证数据的覆盖面与丰富性，许多数据集在选择时明确强调难度和多样性，通常会采用启发式方法，或依据模型通过率，优先挑选较难的问题。

此外，大多数数据集依靠经过验证的思维链，也就是COTs，来确保正确性，依靠它来确保质量。

验证方法因领域而异，例如：

这种方法结合了领域验证与选择性保留，它能让数据管理人员提炼出高质量的推理轨迹，进而更好地支持监督微调。

这些数据集覆盖多个领域，然而，如表1所示，大多数数据集主要集中在数学和编程任务上，涉及更广泛推理任务（像科学、逻辑谜题和开放性问题）的覆盖率依旧相对有限。

中国爆发革命__中国即将爆发革命

值得注意的例外有DeepSeek-R1和AM，它们在数据收集过程中纳入了更广泛的领域，它们在蒸馏过程中也纳入了更广泛的领域，其目的在于培养更通用的推理能力。

长度分布

图2展示了数据集的token长度分布情况。

这些数据集的长思维链（CoTs）均源自同一个教师模型，即DeepSeek-R1，然而它们的分布有着明显差异。

AM的数据集倾向于较短的序列，Synthetic - 1的数据集也倾向于较短的序列，Light - R1的分布范围更广，Open - R1的分布范围也更广，Light - R1的尾部更长，Open - R1的尾部也更长，这表明它们包含更多复杂问题，这些问题通常会引发更长的思维链。

中国即将爆发革命__中国爆发革命

图3展示了常用数学推理数据集之间的交叉引用结构，该图清晰呈现了数据集之间的依赖网络，还呈现了数据集之间的共享数据，这有助于研究人员更好地解读结果，能避免重复的训练或评估设置。

_中国爆发革命_中国即将爆发革命

图中的箭头，是从源数据集指向目标数据集的，目标数据集包含源数据集的部分数据。以淡紫色高亮显示的数据集，包含从DeepSeek-R1提取的思维链（Chain-of-Thought）轨迹。

性能比较

在实践里，SFT阶段十分关键，它能让基础模型从更强的模型中学习，从而获得高质量推理轨迹。

_中国即将爆发革命_中国爆发革命

表2展示了常见数学推理基准上SFT结果的比较，这些基准包括AIME24/25和MATH500等，突出了不同数据集选择的影响，也突出了初始模型检查点的影响。

中国爆发革命__中国即将爆发革命

许多方法强调通过增加训练样本数量来提升性能，然而，LIMO和S1k-1.1表明，精心挑选小规模数据集，也能取得优异成果。

训练细节

对于复杂推理等长上下文任务，通常会对模型配置中的RoPE缩放因子（θ）进行调整，还会对最大上下文长度进行调整，以此来支持扩展的上下文能力。

请提供需要改写的句子，以便我进行操作。

此外，通常采用打包（packing）技术来提高训练效率。

RLVR在推理语言模型中的应用

RL数据集

DeepSeek-R1-Zero在推理任务中取得了优异表现，它在知识任务中也取得了优异表现，这是通过独立的RLVR流程实现的。高质量精选数据集在其RLVR过程中被使用，这是成功的关键。

因此多项复制研究进行了探索探索的内容是如何利用开源数据以及如何利用强大模型从而高效创建训练数据集的策略。

这些数据集包含多种在R训练中能够被验证的任务，是主要聚焦于数学以及编程问题解决的数据集，表3给出了这些数据集的统计概览。

中国即将爆发革命_中国爆发革命_

RL组件

DeepSeek发布了DeepSeek-R1-Zero和DeepSeek-R1，展示了成功经验，即通过强化学习（RL）微调语言模型（LLM）来应对复杂推理任务。

相关研究基于精心挑选的训练数据，主要集中在配置RL框架的关键部分，目的是实现卓越性能，这包括采用高效的RL算法（如GRPO），还包括设计奖励机制。

表4提供了这些研究方法的比较。

中国即将爆发革命_中国爆发革命_

表4对多个竞争性开源DeepSeek - R1复制研究在强化学习验证任务（RLVR）中所使用的算法以及奖励设计方案进行了总结。为方便比较，DeepSeek - R1系列模型的相关信息被单独列了出来。

在基于结果与奖励的强化学习方法里，近端策略优化算法和广义近端策略优化算法，是微调大语言模型时最常被使用的算法。

有趣的是，近期有一些复制研究，这些研究对这些方法进行了各种改进，还针对特定目标优化了训练效果。

研究团队回顾了几种具有代表性的基于RL的大语言模型微调算法，其中有REINFORCE、PPO、GRPO以及它们的变体，另外，他们梳理了这些方法的改进情况以及改进背后的动机，目的是清晰概述基于结果 - 奖励的RL训练方法的技术进步。

奖励机制

奖励是RL训练的核心，它定义了优化的目标，它引导模型的行为。

一个奖励机制若设计良好，便能提供清晰的信号，还能提供一致的信号，进而帮助模型学习到有效的策略。

然而，奖励模型常常容易遭遇「奖励欺骗」，也就是模型通过钻空子获得高分而非真正解决问题，所以近期研究更倾向于使用基于规则的结果奖励系统。

这些系统通常分为三类：

采样策略

直观来说，在训练过程中合理选择样本对RL的有效性至关重要。

一方面，课程学习方法借助逐步加大任务难度这一方式，提高了复杂样本的利用率。另一方面，合理运用拒绝采样技术能够提升样本效率，还能使训练保持稳定。

RLVR在其他任务上的应用

借助RLVR，DeepSeek-R1的复杂推理能力得到显著提升，在复杂语境理解、问题解决等推理密集型任务方面取得成功。

RLVR让大模型可以在没有人工指导的情形下，借助可验证的答案来学习，进而执行任务，以此激发大模型的复杂推理能力。

受此启发，多项研究展开了探索，这些研究针对RLVR，探索其在不同任务中的复杂推理范式。

这些结果凸显了复杂推理语言模型的潜力，其通过RL训练策略，能够超越监督数据资源，甚至超越人类能力。

标签： DeepSeek-R1 长思维链数据集数学推理基准 SFT结果

打赏

更多>同类资讯

• 南京江北新区华能电厂发电机组失火消防迅速处	• S108无缝钢管制造商：高质量原材料与严格工艺流
• 9月新上市二手钢结构厂房及材料	• 2023年6月二手钢结构最新货源
• 2023年3月二手钢结构厂房出售信息	• 二手钢结构市场最新出售信息（2022年12月）
• 二手钢结构厂房信息（10月28日更新）	• 宽90m长180m高10m 大型库房
• 宽105m长114m高8.5m行车房	• 宽15.8m长48m高9m二手钢结构库房

推理语言模型成主流，DeepSeek - R1引发热潮，相关研究经验总结

推荐资讯

推荐图文资讯

GB27 六角头铰制孔用螺栓等多种螺栓标准规

GB 50205-2020钢结构工程施工质量验收标准

GB 50205-2020 钢结构工程施工质量验收标准

2022 年 1 月以来，在建项目工地事故频发，

乡村自建房施工队伍收费标准详解：包工包料

GB50210 规定：当吊杆长度大于 1.5m 时，应

资讯点击排行

热门标签

推荐视频

最新加入公司