后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述

更新时间：2025-05-01 23:04:51 发布时间：10小时前评论：0

内容摘要现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。近日，一份围绕 LLM 后训练的综述报告收获了不少好评，其整理相关论文和工具的资源库已经收获了超过 700 star。该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌

现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。

近日，一份围绕 LLM 后训练的综述报告收获了不少好评，其整理相关论文和工具的资源库已经收获了超过 700 star。

该综述来自阿联酋人工智能大学、中佛罗里达大学、谷歌 DeepMind 和牛津大学等多所机构，涵盖通过强化学习增强 LLM 的技术、监督式微调、测试时扩展以及 LLM 后训练基准评估等内容。

论文标题：LLM Post-Training: A Deep Dive into Reasoning Large Language Models

论文地址：abs/2502.21321

资源库：mbzuai-oryx/Awesome-LLM-Post-training

机器之心在下面简要整理了该综述报告的内容主干，更多详情请访问以上链接。

近些年，大型语言模型（LLM）的能力在不断提升，应用领域也在急速扩展。尽管如此，仍有问题存在。

比如 LLM 可能出现所谓的「幻觉」，即生成误导性内容或不正确的事实；也可能在较长的会话中难以保持逻辑一致性。此外，LLM 中的推理概念仍然是一个备受争论的话题。虽然推理模型可以给出看似逻辑连贯的响应，但它们的推理与人类那样的逻辑推理有着根本的不同。这种区别至关重要，因为这有助于解释为什么 LLM 虽然可以产生令人信服的输出，但却仍然会在相对简单的逻辑任务上遇到困难。

与操纵显式规则和事实的符号推理不同，LLM 以隐式和概率的方式运行。在这篇综述报告中，LLM 的「推理（reasoning）」是指基于数据中的统计模式生成逻辑上连贯的响应，而不是显式的逻辑推理或符号操作。

此外，仅通过下一 token 预测训练得到的模型可能无法与用户的期望或道德标准对齐，尤其是在模糊或恶意场景中。这些问题表明，为了解决 LLM 输出中的可靠性、偏差和上下文敏感性问题，还需要专门的策略。

LLM 的训练过程大致可分为两个阶段：预训练和后训练。

预训练阶段通常依赖在大规模语料库上的下一 token 预测目标，后训练阶段通常则包括多轮微调和对齐。后训练机制的目标是通过优化模型行为来改进模型行为以及实现与人类意图的对齐（包括减少偏见和不准确度）。

要让 LLM 适应特定领域的任务，通常涉及到微调等技术。这些技术虽然可以实现针对具体任务的学习，但也存在过拟合的风险，并且还会产生高计算成本。

为了解决这些难题，强化学习（RL）被引入进来；这能让模型使用动态的反馈和优化序列决策来提升适应能力。此外，包括低秩适应（LoRA）、适配器和检索增强生成（RAG）在内的 scaling 技术也可提高计算效率和事实准确性。

这些策略加上分布式训练框架，促进了大规模部署，并进一步提高了 LLM 在不同应用中的可用性，见下图 1。通过这些目标明确的后训练技术，LLM 可以更好地与人类意图和道德伦理要求对齐，最终提高其在现实世界中的适用性。下面总结了关键的后训练阶段。

微调

微调（Fine-Tuning）是让已经预训练的 LLM 适应具体的任务或领域，具体做法是基于精选数据集来更新参数。

尽管经过大规模预训练的 LLM 通常具有很好的泛化能力，但微调也确实可以增强其在具体任务上的能力，包括情绪分析、问答和医疗诊断。这个过程通常是监督式的，可以使模型与任务要求对齐，但也会带来过拟合、高计算成本和对数据偏差的敏感性等难题。

为此，LoRA 和适配器等参数高效型技术可通过更新显式参数来学习特定于任务的适应，从而显著减少计算开销。随着模型的专业化，它们可能会在领域外泛化方面遇到困难，为此需要权衡考虑模型的专业性或多功能性。

强化学习

在传统的强化学习（Reinforcement Learning）设置中，智能体需要与结构化环境交互，采取离散的动作在状态之间转换，同时最大化累积奖励。适用强化学习的领域都应具有定义良好的状态 - 动作空间和明晰的目标，比如机器人、棋盘游戏和控制系统。

而 LLM 领域的强化学习有很大不同。LLM 并不是从一个有限的动作集中进行选取，而是从一个巨大词汇表中选取 token，而它们不断演进的状态则是由不断增长的文本序列构成。这样一来，规划和 credit 分配就会变得非常复杂，因为 token 选取的效果通常要到后面才会显现。

另外，基于语言的强化学习中的反馈存在稀疏、主观和延迟的特点，因此通常依赖于启发式评估和用户偏好，而不是明确的性能指标。

不同于通常针对单个目标进行优化的传统强化学习，LLM 还必须平衡多个有时相互冲突的目标。将基于过程的奖励（例如，思维链推理）与基于结果的评估（例如，响应质量）相结合的混合方法有助于改进学习效果。因此，LLM 的强化学习需要专门的优化技术来处理高维输出、非稳态目标和复杂的奖励结构，确保响应保持上下文相关性并与用户期望对齐。

规模扩展

规模扩展（Scaling）对于提高 LLM 的性能和效率至关重要。这能帮助提升模型在任务上的泛化性能，但同时也会带来显著的计算挑战。为了平衡性能和资源效率，需要在推理时采取有针对性的策略。

思维链（CoT）推理和思维树（ToT）框架等技术通过将复杂问题分解为顺序或树状结构的步骤来增强多步骤推理。此外，基于搜索的技术可以迭代探索可能的输出，帮助改进响应并确保更高的事实准确性。这些方法与 LoRA、适配器和 RAG 等方法相结合，可以提升模型处理复杂、特定领域大规模任务的能力。

RAG 可通过动态检索外部知识来提高事实准确性，从而缓解静态训练数据的局限性。

分布式训练框架可利用并行处理来管理大规模模型的高计算需求。

测试时扩展可根据任务复杂性动态调整参数来优化推理。

修改深度、宽度或活动层可以平衡计算效率和输出质量，使其适应资源有限或多变的条件。

尽管扩展方面进步颇多，但挑战仍在，例如收益递减、推理时间更长以及环境影响，尤其是在测试时而不是训练期间执行搜索技术时。为了高质量、高效地部署 LLM，确保可访问性和可行性是至关重要的。

背景信息

该综述报告的第二部分介绍了 LLM 后训练相关的背景信息，其中包括基础的形式化描述、基于强化学习的序列推理、以及用于语言建模的早期强化学习方法。但这里我们就略过了，详见原报告。

表 1 概述了近期的模型，包括它们的参数、架构类型和所采用的蒸馏 RL 方法。

图 2 则总结了 LLM 的推理方法，其中展示了通过思维链（CoT）提示、自我反馈和情景记忆等方法增强推理能力的途径。同时也突出展示了多种基于强化学习的优化技术，包括 GRPO、RLHF、DPO 和 RLAIF。

强化 LLM

从方法论的角度来看，为了将强化学习集成到 LLM 推理中，通常要遵循以下核心步骤：

1、监督式微调（SFT）：从预训练语言模型开始，在包含高质量、人工制作的示例样本的监督数据集上，对模型进行微调。此阶段可确保模型获得符合格式和样式的基线。

2、奖励模型（RM）训练：收集微调模型生成的输出并进行人工偏好标注。然后对奖励模型进行训练以复现这些基于标签的分数或排名，从而有效地学习将响应文本映射到标量值的连续奖励函数。

3、强化学习微调：最后，通过策略梯度算法（例如 PPO）优化主语言模型，以最大化奖励模型的输出。通过迭代此循环，LLM 可学习在准确性、有用性和风格连贯性等关键维度上生成人类更偏好的响应。

4、奖励建模和对齐：开发复杂的奖励函数（借鉴人类偏好、对抗性反馈或自动化指标）以引导模型获得连贯、安全且适配上下文的输出。为了在多步推理过程中有效分配 credit，这些奖励至关重要。

在早期，将 LLM 与人类偏好对齐的强化学习算法是经典算法，例如 PPO 和信任域策略优化（TRPO），这些算法优化策略的方式是最大化预期累积奖励，同时通过智能体目标函数和 KL 散度正则化对策略更新施加约束。

针对可扩展的基于偏好的优化，已经出现了这些方法的改进版替代方案，例如直接偏好优化（DPO）和组相对策略优化（GRPO）。这些方法是将对齐目标重新表述为基于人类标注的偏好数据的排名式对比损失函数。

不同于依赖显式奖励模型和评价网络的 PPO 和 TRPO，DPO 和 GRPO 分别利用对数似然比和组奖励比较来直接优化策略，从而无需显式价值函数近似，同时还能保留偏好一致的学习动态。

这一节涉及的具体内容如下：

奖励建模

显示显式奖励建模

隐式奖励建模

结果奖励建模

过程奖励建模

使用自适应奖励模型的迭代式强化学习

策略优化

胜算比偏好优化（ORPO）

LLM 中的近端策略优化（PPO）

基于人类反馈的强化学习（RLHF）

基于 AI 反馈的强化学习（RLAIF）

信任区域策略优化（TRPO）

直接偏好优化（DPO）

离线推理优化（OREO）

组相对策略优化（GRPO）

多样本比较优化

图 3 给出了 PPO、GRPO 和 DPO 的比较。

基于纯强化学习的 LLM 微调

冷启动强化学习阶段

拒绝采样和微调

面向推理的强化学习

用于人类对齐的第二个强化学习阶段

蒸馏以获得较小模型

图 4 的维恩图说明了在实现高效的微调和部署时，系统、数据和模型之间的相互作用。它涵盖了用以提升性能和可扩展性的加速器（Groq、vLLM）、适应器（LoRA、PEFT）、共同优化架构（FlashAttention）、数据压缩（TokenMerging）、Scaling Law（Chinchilla）和模型压缩（GPTQ）等策略。

LLM 中的监督微调

如图 2 所示，微调是 LLM 后训练配方的基本组成部分。这一节总结了不同类型的 LLM 微调机制，具体包括：

指令微调

对话（多轮）微调

CoT 推理微调

特定于具体领域的（专业）微调

基于蒸馏的微调

偏好和对齐 SFT

高效微调

下表概括性地总结了现代的 LLM 框架和方法。

测试时扩展方法

强化学习微调的是模型的策略，而测试时扩展（TTS）通常是在推理过程中增强模型的能力，这个过程无需更新模型。图 5 给出了 TTS 方法的分类情况 —— 基于其底层技术进行了分类。

具体来说，包含以下技术：

集束搜索

Best-of-N 搜索（拒绝抽样）

计算最优扩展

思维链提示

自我一致性解码

思维树（Tree-of-thoughts）

思维图谱（Graph of Thoughts）

基于置信度的采样

针对验证者进行搜索

通过优化实现自我改进

蒙特卡洛树搜索（MCTS）

行动-思维链推理

预训练与测试时扩展

图 6 则比较了 LLM 的推理策略，从直接提示法（不使用推理地将输入映射到输出）到更结构化的方法。

思维链（CoT）引入了逐步推理，而自我一致性（CoT-SC）则是生成多个 CoT 路径并选择最常出现的答案。Mutiple CoT 会独立探索不同的推理路径。思维树（ToT）则是将推理构造为树，从而实现回溯和细化，而思维图谱（GoT）则是通过对思维进行动态聚合和连接来实现这一点。

LLM 后训练评估基准

为了评估 LLM 后训练阶段的表现，人们已经提出了很多涉及多个领域的基准：

推理

强化学习对齐

多语言评估

通用理解

对话和搜索

结构良好的评估框架可确保全面了解 LLM 在各种任务中的优势和局限性。

这些基准在 LLM 后处理阶段起着至关重要的作用，模型在此阶段经过微调、校准、对齐和优化，可以提高响应准确性、稳健性和道德合规性。本节分组介绍了主流的基准。表 3 概述了这些基准分组下的关键数据集。

未来方向

最后，作者团队还收集了与 LLM 后训练方法相关的论文并分析了它们的趋势，如图 7 所示。

可以看到，自 2020 年以来，强化学习在优化 LLM 方面的地位有了显著提升（图 7a），其中还突出了对交互式方法的需求，例如人机交互强化和可扩展性。

与此同时，由于自我奖励语言模型的出现，人们对奖励建模（图 7b）的兴趣也在稳步上升，但该领域仍在努力应对奖励 hacking 问题，以及设计解决奖励 hacking 的稳健型、可感知问题的奖励函数。

解码和搜索（图 7c）方法包括思维和蒙特卡洛策略，其目标是通过迭代自我批评来增强模型推理能力，但这些技术也需要可靠的不确定性估计器，以防止计算开销过高。

安全性、稳健性和可解释性同样已成为核心关注点（图 7d），这个方向的研究者推动了偏见感知型和不确定性感知型强化学习方法的发展，这些方法超越了与人类不确定性的相关性，可以维护用户信任并防止对抗性攻击。

个性化和适应性（图 7e）也是关键领域 —— 在为特定领域定制 LLM 时，必须权衡考虑隐私风险，特别是涉及企业数据或敏感个人信息时。

与此同时，过程与结果奖励优化（图 7f）仍然是一个悬而未决的问题：虽然基于过程的奖励有助于指导渐进式改进，但以结果为中心的指标更简单，但可能无法捕捉关键的中间决策步骤。

除了奖励结构之外，针对新任务微调 LLM 时仍然会遇到灾难性遗忘和潜在的数据泄露等问题，这就凸显了对参数高效型方法和隐私保护策略（如差分隐私和联邦学习）的需求。

人工反馈虽然是对齐的核心，但其成本高昂且范围有限；Constitutional AI 和 RLAIF 等方法希望实现部分监督的自动化，尽管它们也引发了人们对偏差校准和模型自洽性的新担忧。

最后，测试时扩展和动态推理框架也带来了进一步的挑战：模型必须学习何时为复杂查询分配更多计算，如何有效地调整验证模块，以及如何在面对对抗性输入时保持稳健的性能。这些融合的研究方向（涵盖奖励建模、解码策略、可解释性、个性化和安全微调）凸显了强化学习在 LLM 中作用的多样性，并共同塑造了大规模语言模型开发的未来轨迹。

举报收藏打赏 评论 0