复旦、同济和港中文等发布: 强化学习在大语言模型全周期全面综述
近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管现有综述对强化学习增强型 LLMs 进行了概述,但其涵盖范围较为有限,未能全面总结强化学习在 LLMs 全生命周期中的作用机制。
对此,来自复旦大学、同济大学、兰卡斯特大学以及香港中文大学 MM Lab 等顶尖科研机构的研究者们全面总结了大语言模型全生命周期的最新强化学习研究,完成题为 “Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle” 的长文综述,系统性回顾了领域最新进展,深入探讨研究挑战并展望未来发展方向。
论文标题: Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle
作者综述了强化学习赋能大语言模型的理论与实践进展,详细阐述了强化学习在大语言模型全生命周期各阶段的应用策略,包括预训练、对齐微调与强化推理并整理了当前用于强化学习微调的现有数据集与评估基准以及现有的主流开源工具与训练框架,为后续研究提供清晰的实践参考。该综述还详细分析了强化学习增强型大语言模型领域未来面临的挑战与发展趋势,旨在为研究人员与从业者呈现强化学习与大语言模型交叉领域的最新进展及前沿趋势,以期推动更智能、更具泛化能力且更安全的大语言模型的发展。
图 1:强化学习增强型大语言模型的核心组件概览。该图展示了强化学习增强型大语言模型生命周期内的核心组件及其交互关系。在强化学习框架与工具包的驱动下,强化学习算法参与大语言模型的预训练、对齐及推理增强训练,并通过测试基准进行验证。
该综述深入剖析了强化学习技术如何应用于大语言模型的全生命周期阶段,如何贯穿 LLMs 的预训练、对齐和强化推理全过程。文章总结了强化学习应用于大语言模型的具体方法和技术细节,为未来强化学习与 LLMs 的深度融合提供了经验,以此探索未来的研究机遇与发展路径。基于所综述内容,作者提出了首个 RL 在 LLMs 全生命周期的运作方法的分类总览图:
图 2:强化学习增强型大语言模型的分类体系总览图。该图呈现了构建强化学习增强型大语言模型所涉及的关键阶段与资源的分类体系,共分为五个分支:预训练、对齐、基于可验证奖励的强化学习、数据集与基准测试、开源框架。此分类体系明确了各阶段之间的关联,可作为理解该综述所探讨的方法进展与相关资源的参考框架。
作者将基于可验证奖励的强化学习技术 (Reinforcement Learning with Verifiable Rewards, RLVR) 作为该综述的关注重点,系统性地梳理了自 OpenAI-o1 与 DeepSeek-R1 发布以来强化学习赋能大语言模型以及多模态大语言模型推理能力上的应用研究,总结了如何通过提供可验证的奖励信号提升模型推理的稳定性和准确性。通过引入可自动验证的奖励机制,RLVR 不仅优化了推理过程,还增强了模型对复杂任务的适应能力。该综述对 RLVR 进行了详细探讨,展示了其在数学推理、编程任务等领域的应用效果。
图 3:RLVR 方法的技术架构图。该架构图展示了 RLVR 的整体工作流程,并详细阐述了奖励模型、离线策略辅助、奖励过滤、采样与推理策略、智能体强化学习以及奖励更新层级的设计方法。
该综述主要有三大特有贡献:
全生命周期梳理:系统涵盖了强化学习在大语言模型中的完整应用生命周期,详细阐述了从预训练、对齐到推理强化的各阶段流程。在此过程中,该文章明确了每个阶段的目标、方法及面临的挑战。
聚焦先进 RLVR 技术:重点介绍了基于可验证奖励的强化学习领域的前沿方法。该文章深入分析了 RLVR 的实验现象与尖端应用,探究了用于确保奖励具备客观性与可验证性的相关方法。
整合关键研究资源:总结了对大语言模型中强化学习相关实验、评估及实际落地至关重要的数据集、基准测试与开源框架。通过整合这些信息,该文章为未来希望在 LLMs 场景下探索 RL 的研究人员提供了极具价值的参考资源。
强化学习在大语言模型上的应用,标志着大模型发展的一次重要转折。然而当前强化学习在大语言模型全生命周期中的应用依然面临的挑战。作者指出,尽管强化学习在提升 LLM 的对齐和推理能力方面取得了显著进展,但在系统规模的可扩展性和训练稳定性方面仍存在很大的挑战。大规模 RL 训练对于 LLM 来说依然是计算密集型的,并且往往不稳定。
此外,奖励设计和信用分配的问题也是当前 RL 应用中的难点,尤其是在长时间推理过程中,奖励延迟的问题给模型的学习带来了不小的困难。理论层面,当前缺乏清晰的理论框架来分析 RL 在 LLM 训练中的泛化能力和稳定性,这使得对 RL 的有效性和潜在风险的理解仍然不充分。在应用层面,将RL与基于LLM的智能体和工具使用相结合,也面临着效率、安全性和可控性等挑战。因此,文章强调了在数据集和评估基准建设方面的不足,当前大多数研究仍依赖特定任务的数据集,缺乏统一的标准化基准,这为强化学习微调方法的比较和验证带来了困难。
该综述形成了一份基于生命周期的综合分析,既突出了方法层面的进展,也涵盖了配套支持资源,并结合领域技术趋势和工程实践需求分析了现有挑战和未来方向,可作为强化学习增强型大语言模型领域研究者的前沿参考资料,欢迎感兴趣的读者阅读、讨论和引用该论文:
@misc{liu2025reinforcementlearningmeetslarge, title={Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle}, author={Keliang Liu and Dingkang Yang and Ziyun Qian and Weijie Yin and Yuchi Wang and Hongsheng Li and Jun Liu and Peng Zhai and Yang Liu and Lihua Zhang}, year={2025}, eprint={2509.16679}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2509.16679},