训练代码大型语言模型时，揭示监督微调和强化学习之间的相关性

Jun, 2024

训练代码大型语言模型时，揭示监督微调和强化学习之间的相关性

Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models

Jie Chen, Xintian Han, Yu Ma, Xun Zhou, Liang Xiang

TL;DR通过综合消融研究，我们发现：（1）原子函数和合成函数对于 SFT 的泛化至关重要，仅少量合成函数即可；（2）通过 RL，即使使用相同的训练提示，可以极大增强 SFT 对目标领域的泛化能力；（3）从头开始训练 RL 可以减轻 SFT 阶段引入的过拟合问题。

Abstract

automatic code generation has been a longstanding research topic. With the advancement of general-purpose large language models (LLMs), the ability to code stands out as one important measure to the model's reaso

automatic code generation large language models supervised fine-tuning reinforcement learning correlation between sft and rl

发现论文，激发创造

直觉微调：将 SFT 和 RLHF 统一为单一流程

Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型（LMs）能力的两个基本过程，它们可以更好地与人类偏好相一致，然而当前常见的做法是简单地按顺序应用它们，而没有统一它们的优化目标，导致在适应不同目标之间存在权衡，并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解，我们在马尔可夫决策过程（MDP）框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式，我们发现 SFT 只是 RLHF 的一个特殊情况，其估计和优化能力较差。因此，SFT 高估了模型的能力，导致优化效果不佳。基于这个观点，我们引入了直观微调（IFT）将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知，同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明，IFT 在几个任务上，特别是那些需要生成、推理和遵循事实能力的任务上，表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。

May, 2024

ReFT: 强化微调推理

通过增强学习和在线增强学习的组合，提出了一种名为 ReFT 的简单而有效的方法来增强大型语言模型在推理中的泛化能力，以数学问题求解为例，通过学习多个标注的推理路径，显著提高了性能。

Jan, 2024

利用强化学习和大型语言模型进行代码优化

提出了一种建立在大型语言模型和强化学习基础上的框架，用于减少代码优化的复杂性并提供更高的效率和可靠性。

Dec, 2023

大型语言模型的能力受监督微调数据组成的影响

通过研究大型语言模型在数据组成、数学推理、代码生成和精细调整策略等方面的能力，发现不同能力展现出不同的扩展模式，较大的模型在相同数据量下表现更好；数据组成在低数据量下会改善各种能力，而在高数据量下可能导致能力冲突；而我们提出的双阶段混合精细调整策略能够解决多个能力的学习问题。

Oct, 2023

自我演进的策略优化微调

本研究在大型语言模型（LLMs）对齐方面引入自我演进微调（SEFT），旨在消除对注释样本的需求，同时保持 SFT 的稳定性和效率。通过 SEFT，模型能利用大量未标志的数据进行策略优化。实验结果表明 SEFT 的有效性，并对其相对于现有对齐技术的优势进行了全面分析。

Jun, 2024

利用混合自然语言反馈对语言模型进行微调的 LaFFi

该论文介绍了一种名为自然语言反馈微调 LLM（LaFFi）的替代方法，通过要求 LLM 直接预测从评注者那里得到的反馈，显著提高了领域内问答任务的准确性，为自然语言反馈在 SFT LLMs 领域的应用提供了一个有前途的方向。

Dec, 2023

理解 RLHF 对 LLM 泛化和多样性的影响

利用强化学习从人类反馈中对大型语言模型（LLMs）进行微调，该方法已在一些最广泛使用的人工智能模型中得到应用，如 OpenAI 的 ChatGPT、Anthropic 的 Claude 或 Meta 的 LLaMA-2。我们通过广泛的分析探讨了这个过程的每个阶段（即受监督的微调（SFT）、奖励建模和强化学习从人类反馈）对于两个关键属性的影响：越界分布的泛化和输出的多样性。我们发现，相对于受监督的微调，强化学习从人类反馈更好地泛化到新的输入，尤其是在训练和测试之间的分布差异越大时。然而，相比于受监督的微调，强化学习从人类反馈显著降低了输出的多样性，这意味着在当前 LLM 微调方法中存在泛化和多样性之间的权衡。我们的研究结果为特定应用提供了微调方法的指导，并表明有必要改进泛化和多样性之间的权衡。

Oct, 2023

大型语言模型学习数学推理的规模关系

探索大型语言模型中数学推理的挑战，研究预训练损失、监督数据量和增强数据量对监督型语言模型推理性能的影响，发现预训练损失是模型性能的更好指标，应用不同数量的监督数据和拒绝抽样微调来改善模型性能，发现增加数据量与模型性能呈对数线性关系，增加更多不同推理路径的数据样本能进一步改善语言模型的数学推理性能。

Aug, 2023

CodeRL: 通过预训练模型和深度强化学习掌握代码生成

CodeRL 使用预训练的语言模型和深度强化学习框架解决了程序合成中标准的有监督微调的一些局限，同时在 APPs 和 MBPP 基准测试中创造了新的 SOTA 结果。

Jul, 2022

利用大型语言模型的强化学习修复代码安全漏洞

为了加强和增强通过 Large Language Models 生成的代码的安全性，在本文中，我们提出了一种基于强化学习的程序特定修复方法，结合语义和句法奖励机制，重点关注在代码中增加安全和功能性措施。

Jan, 2024