返回文章列表
AI

如何构建推理模型?AI推理型大语言模型(LLMs)的介绍

米易
2025-11-27
2个月前
如何构建推理模型?AI推理型大语言模型(LLMs)的介绍

本文介绍了构建推理模型的四种主要方法,即我们如何为大语言模型(LLMs)赋予推理能力。希望这些内容能为你提供有价值的见解,帮助你在这一领域快速发展的文献和炒作中理清方向。

2024年,大语言模型领域呈现出日益明显的专业化趋势。除了预训练和微调之外,我们见证了各种专用应用的兴起,从检索增强生成(RAG)到代码助手等。我预计这一趋势将在2025年进一步加速,领域和应用场景特定的优化(即“专业化”)将受到更多重视。


推理模型的开发正是这些专业化方向之一。这意味着我们对大语言模型(LLMs)进行优化,使其在需要中间步骤才能解决的复杂任务上表现出色,例如解谜题、高阶数学问题和编程挑战等。然而,这种专业化并不会取代其他类型的LLM应用,因为将一个通用LLM转变为推理模型也会带来某些弊端,我将在后文加以讨论。

为了让你快速了解下文内容,本文将:

  • 阐释“推理模型”的含义
  • 探讨推理模型的优势与劣势
  • 概述 DeepSeek R1 背后的技术方法
  • 介绍构建和改进推理模型的四种主要途径
  • 分享在 DeepSeek V3 和 R1 发布之后对大语言模型格局的一些思考
  • 提供在预算有限的情况下开发推理模型的实用建议


希望本文能在人工智能今年持续高速发展的背景下,为你带来切实的帮助!

我们如何定义“推理模型”?

如果你从事人工智能(或更广义的机器学习)领域,你很可能已经习惯了那些模糊且充满争议的术语定义。“推理模型”也不例外。最终,总会有某篇论文对它做出正式定义,但很快又会在下一篇论文中被重新诠释,如此往复。

在本文中,我将“推理”定义为:回答那些需要复杂、多步骤生成并包含中间推理过程的问题。例如,“中国的首都是哪里?”这类事实型问答并不涉及推理;而像“一列火车以每小时60英里的速度行驶了3小时,它行驶了多远?”这样的问题则需要一定的简单推理——比如,必须先识别出距离、速度和时间之间的关系,才能得出答案。

大多数现代大语言模型(LLMs)都具备基本的推理能力,能够回答诸如“一列火车以每小时60英里的速度行驶了3小时,它行驶了多远?”这类问题。因此,如今当我们提到“推理模型”时,通常指的是那些在更复杂的推理任务上表现卓越的大语言模型,例如解答谜题、脑筋急转弯以及数学证明等。

此外,目前大多数被冠以“推理模型”之名的大语言模型,其输出通常包含一个“思考”或“思维”过程。至于大语言模型是否真的在“思考”,以及如何“思考”,则是另一个值得探讨的话题。

推理模型中的中间步骤可以以两种方式呈现:
第一种是明确地将其包含在模型的输出中,如前文图示所示;
第二种是一些推理型大语言模型(例如 OpenAI 的 o1)会在内部进行多轮迭代,生成中间步骤,但这些步骤并不会展示给用户。


我们何时应该使用推理模型?

在明确了推理模型的定义之后,我们可以进入更有趣的部分:如何构建和改进用于推理任务的大语言模型(LLMs)。然而,在深入技术细节之前,我们首先需要思考一个关键问题:究竟在什么情况下才真正需要推理模型?

我们什么时候需要推理模型?推理模型专为处理复杂任务而设计,例如解谜题、高阶数学问题以及具有挑战性的编程任务。但对于更简单的任务,如文本摘要、翻译或基于知识的事实型问答,则并不需要推理模型。事实上,对所有任务都使用推理模型可能既低效又昂贵。例如,推理模型通常使用成本更高、输出更冗长,有时还会因“过度思考”而更容易出错。这里同样适用一条简单原则:为任务选择合适的工具(或合适类型的大语言模型)。

下图总结了推理模型的主要优势与局限性。

简要了解 DeepSeek 的训练流程

在下一节讨论构建和改进推理模型的四种主要方法之前,我想先简要概述一下 DeepSeek R1 的训练流程,该流程源自《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。这份报告不仅是一个有趣的案例研究,也为开发推理型大语言模型提供了可借鉴的蓝图。

需要注意的是,DeepSeek 并未只发布单一的 R1 推理模型,而是推出了三个不同的变体:DeepSeek-R1-Zero、DeepSeek-R1 和 DeepSeek-R1-Distill。

根据技术报告中的描述,我将这些模型的开发流程总结在下图中。

接下来,我们简要回顾一下上图所示的流程。更多细节将在下一节展开,届时我们将讨论构建和改进推理模型的四种主要方法。

(1)DeepSeek-R1-Zero:该模型基于 2024 年 12 月发布的 671B 参数预训练基础模型 DeepSeek-V3。研究团队使用强化学习(RL)对其进行训练,并采用了两种类型的奖励信号。这种方法被称为“冷启动”(cold start)训练,因为它跳过了通常在人类反馈强化学习(RLHF)中包含的监督微调(SFT)步骤。

(2)DeepSeek-R1:这是 DeepSeek 的旗舰推理模型,建立在 DeepSeek-R1-Zero 的基础上。团队通过额外的 SFT 阶段和进一步的 RL 训练对其进行了优化,从而在“冷启动”的 R1-Zero 模型之上实现了性能提升。

(3)DeepSeek-R1-Distill*:利用前几步生成的 SFT 数据,DeepSeek 团队对 Qwen 和 Llama 系列模型进行了微调,以增强它们的推理能力。虽然这一过程并非传统意义上的知识蒸馏,但它确实使用了更大的 DeepSeek-R1(671B)模型的输出,来训练更小的模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。


构建和改进推理模型的四大主要方法

在本节中,我将概述当前用于提升大语言模型(LLM)推理能力、并构建专用推理模型(如 DeepSeek-R1、OpenAI 的 o1 和 o3 等)的关键技术。

:o1 和 o3 的具体实现细节在 OpenAI 之外尚不公开。但据传它们结合了推理阶段和训练阶段的多种技术。

1) 推理时扩展(Inference-time scaling)

提升 LLM 推理能力(或任何能力)的一种方式是推理时扩展。这一术语有多种含义,但在本文语境下,特指在推理过程中增加计算资源,以提高输出质量。

一个粗略的类比是:人类在面对复杂问题时,如果给予更多思考时间,通常能给出更好的答案。类似地,我们可以采用一些技术,促使 LLM 在生成答案时进行更多“思考”(尽管 LLM 是否真的“思考”是另一个话题)。

推理时扩展的一个直接方法是巧妙的提示工程(prompt engineering)。经典例子是思维链(Chain-of-Thought, CoT),即在输入提示中加入“请逐步思考”之类的引导语句。这会鼓励模型生成中间推理步骤,而不是直接跳到最终答案——对于更复杂的问题,这种做法通常(但并非总是)能带来更准确的结果。

(注意:对于像“中国首都是哪里?”这类简单的知识型问题,使用此类策略并无意义。这也是一条实用的经验法则:判断你的输入查询是否真正需要推理模型。)


前面提到的思维链(CoT)方法可被视为一种推理时扩展,因为它通过生成更多的输出 token 使推理过程变得更加“昂贵”(即计算开销更大)。

另一种推理时扩展的方法是采用投票和搜索策略。一个简单的例子是多数投票(majority voting):让大语言模型生成多个答案,然后通过多数投票选出最终答案。类似地,我们也可以使用束搜索(beam search)等其他搜索算法来生成更优的回答。

若想深入了解这些不同策略,我强烈推荐阅读论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》将常见的推理时扩展方法(例如基于过程奖励模型(Process Reward Model)和基于蒙特卡洛树搜索(Monte Carlo Tree Search)的方法)归类为“未成功的尝试”。这表明,除了 R1 模型本身相比 V3 基础模型更倾向于生成更长的回答(这种倾向可视为一种隐式的推理时扩展)之外,DeepSeek 并未显式采用这些技术。

然而,显式的推理时扩展通常是在应用层(而非大语言模型内部)实现的,因此 DeepSeek 仍有可能在其应用程序中使用这类技术。

我推测 OpenAI 的 o1 和 o3 模型采用了推理时扩展技术,这也解释了为何它们的使用成本明显高于 GPT-4o 等模型。除了推理时扩展之外,o1 和 o3 很可能也使用了类似于 DeepSeek R1 的强化学习(RL)训练流程。关于强化学习的更多内容,将在接下来的两节中详细展开。

2) 纯强化学习(Pure Reinforcement Learning, RL)

《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》中让我个人印象最深的一点是:他们发现推理能力可以作为一种行为,从纯强化学习中自然涌现。下面我们来深入探讨这一发现的含义。

如前所述,DeepSeek 开发了三种 R1 模型。其中第一种是 DeepSeek-R1-Zero,它基于 DeepSeek-V3 基础模型构建——这是他们在 2024 年 12 月发布的一个标准预训练大语言模型。与典型的强化学习流程不同(通常会在 RL 之前先进行监督微调,即 SFT),DeepSeek-R1-Zero 完全仅通过强化学习进行训练,没有初始的 SFT 阶段,如下图所示。

尽管如此,这种强化学习(RL)过程与常用的基于人类反馈的强化学习(RLHF)方法类似,后者通常用于对大语言模型(LLMs)进行偏好微调。然而,如前所述,DeepSeek-R1-Zero 的关键区别在于跳过了用于指令微调的监督微调(SFT),正因如此,他们称之为“纯”强化学习(“pure” RL)。(不过需要指出的是,大语言模型语境下的 RL 与传统强化学习存在显著差异,但这属于另一个话题了。)

在奖励机制方面,他们并未使用基于人类偏好训练的奖励模型,而是采用了两种类型的奖励:准确性奖励(accuracy reward)和格式奖励(format reward)。

  • 准确性奖励
  • 格式奖励


令人惊讶的是,仅凭这种方法,该大语言模型就发展出了基本的推理能力。研究人员观察到了一个“顿悟时刻”(“Aha!” moment)——尽管模型从未被明确训练去生成推理过程,它却开始在回答中自发地输出推理轨迹(reasoning traces),如下图所示。

尽管 R1-Zero 并非顶尖的推理模型,但它确实展现出了推理能力——如上图所示,它能够生成中间的“思考”步骤。这证实了仅通过纯强化学习(pure RL)来构建推理模型是可行的,而 DeepSeek 团队是首个展示(或至少公开发表)这一方法的研究团队。

3) 监督微调与强化学习(SFT + RL)

接下来,我们来看 DeepSeek 旗舰推理模型 DeepSeek-R1 的开发过程,该模型为构建推理模型提供了一个范本。它在 DeepSeek-R1-Zero 的基础上,进一步引入了额外的监督微调(SFT),以提升其推理性能。

需要注意的是,在标准的 RLHF(基于人类反馈的强化学习)流程中,通常都会在强化学习之前加入一个 SFT 阶段,这种做法其实相当普遍。OpenAI 的 o1 模型很可能也采用了类似的方法进行开发。

如上图所示,DeepSeek 团队使用 DeepSeek-R1-Zero 生成了他们称之为“冷启动”(cold-start)的监督微调(SFT)数据。这里的“冷启动”指的是:这些数据由 DeepSeek-R1-Zero 生成,而该模型本身从未接受过任何监督微调(SFT)数据的训练。

利用这批冷启动 SFT 数据,DeepSeek 首先对模型进行了指令微调(instruction fine-tuning),随后又进行了一轮强化学习(RL)。这一 RL 阶段沿用了 DeepSeek-R1-Zero 中使用的相同准确性奖励和格式奖励,但额外增加了一个一致性奖励(consistency reward),用于防止模型在单次回答中混用多种语言(即“语言混杂”现象)。

在完成该 RL 阶段后,团队又进行了一轮 SFT 数据收集。在此阶段,他们使用最新模型检查点生成了 60 万条思维链(Chain-of-Thought, CoT),同时另外使用 DeepSeek-V3 基础模型创建了 20 万条基于知识的 SFT 示例

这总计 80 万条(60 万 + 20 万)SFT 样本随后被用于对 DeepSeek-V3 基础模型进行指令微调,并紧接着进行了最后一轮强化学习。在这一最终 RL 阶段,对于数学和编程类问题,他们继续采用基于规则的方法提供准确性奖励;而对于其他类型的问题,则使用了人类偏好标注作为奖励信号。总体而言,这一流程与标准的 RLHF 非常相似,主要区别在于:

  • SFT 数据中包含(更多)思维链(CoT)示例;
  • RL 阶段除了基于人类偏好的奖励外,还引入了可验证的奖励机制。


最终得到的 DeepSeek-R1 模型,得益于额外的 SFT 和 RL 训练阶段,在性能上相比 DeepSeek-R1-Zero 实现了显著提升

4) 纯监督微调(SFT)与蒸馏

到目前为止,我们已经介绍了构建和改进推理模型的三种关键方法:

  1. 推理时扩展
  2. 纯强化学习
  3. 监督微调 + 强化学习


那么,还剩下什么方法呢?答案是模型“蒸馏”(distillation)。

令人意外的是,DeepSeek 还发布了一系列通过他们称之为“蒸馏”的流程训练得到的小型模型。然而,在大语言模型(LLM)的语境下,“蒸馏”并不一定遵循深度学习中传统的知识蒸馏(knowledge distillation)方法。按照传统定义,知识蒸馏是指让一个较小的“学生”模型同时学习大型“教师”模型的输出 logits 和目标任务数据。

而在这里,“蒸馏”指的是:在由大型 LLM 生成的 SFT 数据集上,对更小的 LLM(例如 Llama 8B 和 70B,以及 Qwen 2.5 系列模型,参数规模从 0.5B 到 32B 不等)进行指令微调。具体而言,这些大型 LLM 包括 DeepSeek-V3 和 DeepSeek-R1 的一个中间检查点。事实上,用于此次蒸馏过程的 SFT 数据,正是前一节中描述的、用于训练 DeepSeek-R1 的同一数据集。

为清晰说明这一流程,我在下图中特别标出了蒸馏部分。


他们为什么要开发这些蒸馏模型呢?在我看来,主要有两个关键原因:

  1. 小型模型更高效。这意味着它们运行成本更低,同时也能在性能较低的硬件上运行,这对许多研究人员和像我这样的技术爱好者来说尤其具有吸引力。
  2. 纯监督微调(SFT)。这些蒸馏模型提供了一个有趣的基准案例,展示了仅依靠纯监督微调(不使用强化学习)能在多大程度上提升模型性能。


下表对比了这些蒸馏模型与其他主流模型、以及 DeepSeek-R1-Zero 和 DeepSeek-R1 的性能表现。


如我们所见,这些蒸馏模型的性能明显弱于 DeepSeek-R1,但令人惊讶的是,尽管它们的参数规模比 DeepSeek-R1-Zero 小几个数量级,其表现却显著优于后者。此外值得注意的是,这些模型与 o1-mini 的性能对比也相当出色(我怀疑 o1-mini 本身可能也是 o1 的一种类似蒸馏版本)。

在结束本节之前,还有一个有趣的对比值得一提。DeepSeek 团队测试了在 DeepSeek-R1-Zero 中观察到的“涌现式推理行为”是否也能出现在更小的模型中。为此,他们将 DeepSeek-R1-Zero 所采用的纯强化学习(pure RL)方法直接应用于 Qwen-32B 模型。

该实验的结果总结在下表中,其中 QwQ-32B-Preview 作为参照推理模型,是由 Qwen 团队基于 Qwen 2.5 32B 开发的(据我所知,其训练细节从未公开)。这一对比进一步揭示了一个关键问题:仅靠纯强化学习,是否也能在远小于 DeepSeek-R1-Zero 的模型中激发出推理能力?


有趣的是,实验结果表明,对于小型模型而言,蒸馏(即基于高质量推理数据的监督微调)。这支持了一种观点:仅靠强化学习(RL)可能不足以在这一规模的模型中激发出强大的推理能力,而使用高质量推理数据进行监督微调(SFT)在小型模型上可能是更有效的策略。

为了更全面地评估,表中若能包含以下两项额外对比会更有价值:

  1. 采用 SFT + RL 训练的 Qwen-32B,训练方式类似于 DeepSeek-R1 的开发流程。这将有助于判断:与纯 RL 或纯 SFT 相比,将 RL 与 SFT 结合究竟能带来多大程度的性能提升。
  2. 仅通过纯 SFT 微调的 DeepSeek-V3,其训练方式与蒸馏模型的构建过程类似。这样就能直接比较“RL + SFT”相较于“纯 SFT”到底有多大的优势。

结论

在本节中,我们探讨了构建和提升推理模型的四种不同策略:

  1. 推理时扩展(Inference-time scaling)无需额外训练,但会增加推理成本。随着用户数量或查询量的增长,大规模部署的成本将显著上升。尽管如此,对于已经较强的模型而言,这种方法仍是提升性能的“不二之选”。我强烈怀疑 OpenAI 的 o1 模型就采用了推理时扩展,这也解释了为何其每 token 的成本高于 DeepSeek-R1。
  2. 纯强化学习(Pure RL)在研究层面颇具启发性,因为它揭示了推理能力可以作为一种“涌现行为”自然产生。然而在实际模型开发中,RL + SFT 才是更优选择,能构建出更强的推理模型。我同样高度怀疑 o1 也采用了 RL + SFT 的训练方式。更具体地说,我认为 o1 可能基于一个比 DeepSeek-R1 更弱、更小的基础模型,但通过 RL + SFT 和推理时扩展进行了弥补。
  3. 如前所述,RL + SFT 是构建高性能推理模型的核心方法。DeepSeek-R1 为此提供了一个出色的范本,清晰展示了这一流程如何实现。
  4. 蒸馏(Distillation)是一种极具吸引力的方法,尤其适用于构建更小、更高效的模型。但其局限在于:蒸馏本身无法推动创新,也无法催生下一代推理模型——因为它始终依赖于一个已有的、更强的模型来生成监督微调(SFT)数据。

接下来一个值得关注的方向,是将 RL + SFT(策略3)与 推理时扩展(策略1)相结合。这很可能正是 OpenAI 在 o1 中采用的做法,只不过 o1 的基础模型可能弱于 DeepSeek-R1,这也解释了为何 DeepSeek-R1 在推理时既高效又表现出色。


关于 DeepSeek R1 的思考

谈谈我对 DeepSeek-R1 模型的看法。简而言之,我认为这是一项了不起的成就。作为一名算法工程师,我尤其欣赏其详尽的技术报告,其中披露的方法论对我极具启发和学习价值。

最令人着迷的发现之一,是推理能力竟能从纯强化学习中自发涌现。此外,DeepSeek 将模型以宽松的 MIT 开源许可证发布,其限制甚至比 Meta 的 Llama 系列模型还要少,这一点也令人印象深刻。


与 o1 相比如何?

DeepSeek-R1 是否优于 o1?我认为两者大致处于同一水平。但 DeepSeek-R1 的突出优势在于推理效率更高。这表明 DeepSeek 可能在训练阶段投入更多,而 OpenAI 则可能更依赖推理时扩展来提升 o1 的性能。

不过,由于 OpenAI 并未公开 o1 的细节,直接比较仍属“苹果与橘子”的对比。例如,我们尚不清楚:

  • o1 是否也是混合专家模型(MoE)?
  • o1 的实际规模有多大?
  • o1 是否只是 GPT-4o 的轻微改进版,仅辅以少量 RL + SFT,主要依靠大量推理时扩展?


在缺乏这些关键信息的情况下,任何直接对比都只能是推测。


DeepSeek-R1 的训练成本

另一个热议话题是 DeepSeek-R1 的开发成本。有人提到约4300万元的训练费用,但这很可能是将 DeepSeek-V3(2024 年 12 月发布的基座模型)与 DeepSeek-R1 混淆了。

4300万元的估算基于假设 GPU 小时单价为14元,并参考了 DeepSeek-V3 最终训练轮次所需的 GPU 小时数——该数据最早在 2024 年 12 月被讨论过。

然而,DeepSeek 团队从未披露 R1 的确切 GPU 小时数或开发成本,因此所有相关成本估计都纯属猜测。

无论如何,DeepSeek-R1 无疑是开源权重推理模型领域的一个重要里程碑,其高效的推理表现使其成为 OpenAI o1 的一个有趣替代方案。


在有限预算下开发推理模型

即使以 DeepSeek-V3 这类开源基座模型为起点,要开发出 DeepSeek-R1 级别的推理模型,仍可能需要数十万至数百万美元的资金投入。这对预算有限的研究人员或工程师来说,无疑令人望而却步。

好消息是:蒸馏能走得很远。

幸运的是,模型蒸馏提供了一种更具成本效益的替代路径。DeepSeek 团队通过其 R1 蒸馏模型证明了这一点:尽管参数规模远小于 DeepSeek-R1,这些小型模型仍展现出令人惊讶的强推理能力。当然,即便如此,该方法也并非完全廉价——他们的蒸馏过程使用了 80 万条 SFT 样本,仍需大量算力支持。

有趣的是,在 DeepSeek-R1 发布前几天,我偶然看到一篇关于 Sky-T1 的文章:一个小型团队仅用 1.7 万条 SFT 样本就训练出了一个开源的 32B 模型,总成本仅为 450 美元——甚至低于大多数 AI 会议的注册费。

这一案例表明:尽管大规模训练依然昂贵,但小规模、有针对性的微调工作,仍能以极低成本取得令人印象深刻的结果。

根据其基准测试,Sky-T1 的性能大致与 o1 相当,考虑到其极低的训练成本,这一表现令人印象深刻。

低成本下的纯强化学习:TinyZero

虽然 Sky-T1 聚焦于模型蒸馏,我也注意到“纯强化学习”(pure RL)领域一些有趣的工作。其中一个突出的例子是 TinyZero——一个仅含 30 亿参数(3B)的模型,它复现了 DeepSeek-R1-Zero 的方法(顺便一提:其训练成本不到 30 美元)。

令人惊讶的是,即使规模仅有 3B 参数,TinyZero 仍展现出一定的涌现式自验证能力(emergent self-verification abilities),这进一步支持了一个观点:即使在小型模型中,推理能力也能通过纯强化学习自然涌现

TinyZero 的代码仓库提到,相关研究报告仍在撰写中。后续期待更多细节的公布。

上述两个项目表明,即使预算有限,依然可以开展富有成效的推理模型研究。尽管这两种方法都借鉴了 DeepSeek-R1 的思路——TinyZero 聚焦于纯强化学习(pure RL),而 Sky-T1 则专注于纯监督微调(pure SFT)——但更令人期待的是,这些思路未来还能如何进一步拓展和深化。

超越传统 SFT:旅程学习(Journey Learning)

去年我接触到一种特别有趣的方法,见于论文《O1 Replication Journey: A Strategic Progress Report – Part 1》。尽管标题提到“复现 o1”,但该论文实际上并未真正复现 o1,而是提出了一种改进蒸馏(即纯 SFT)过程的新思路。

论文的核心思想是用 “旅程学习”(journey learning)替代传统的 “捷径学习”(shortcut learning)。

  • 捷径学习
  • 而 旅程学习 则同时包含错误的解题路径及其修正过程,使模型能够从错误中学习。

这种方法在某种程度上与 TinyZero 在纯强化学习训练中观察到的自验证能力相关,但其目标是完全通过 SFT 来提升模型性能。通过向模型展示错误的推理路径以及对应的纠正方式,旅程学习有望增强模型的自我纠错能力,从而以这种方式构建出更可靠、更稳健的推理模型。

这可能是一个令人兴奋的未来研究方向,尤其适用于预算有限的推理模型开发场景——在这些场景中,基于强化学习(RL)的方法可能因计算成本过高而难以实施。

无论如何,目前在推理模型领域正涌现出大量有趣的工作,我相信在接下来的时间里,我们一定会看到更多令人振奋的成果!

本文内容仅供参考,不构成任何专业建议。使用本文提供的信息时,请自行判断并承担相应风险。

分享文章
合作伙伴

本站所有广告均是第三方投放,详情请查询本站用户协议