无需人工反馈的强化学习在大型语言模型最后一公里微调中的应用

Aug, 2024

无需人工反馈的强化学习在大型语言模型最后一公里微调中的应用

Reinforcement Learning without Human Feedback for Last Mile Fine-Tuning of Large Language Models

Alec Solway

TL;DR本研究解决了大型语言模型在特定领域部署时缺乏人类偏好信号的最后微调问题。提出了一种新的强化学习框架，该框架在数据微调过程中获得显著性能提升，优于传统的似然最大化方法。研究成果表明，该框架可以促进模型优化，尤其是在复杂场景与不理想输出的处理上具有潜在影响。

Abstract

Reinforcement Learning is used to align Language Models with human preference signals after first pre-training the model to predict the next token of text within a large corpus using likelihood maximization. Befo

发现论文，激发创造

精细调整包容性语言模型的代理-环境接口破碎

本文提出了一种新的方法，将预训练的语言模型同时用作策略、奖励函数和转移函数，从而实现了奖励学习和语言模型微调的联合和直接处理，并通过处理认知不确定性来实现高效探索。

May, 2023

直接优化偏好：你的语言模型其实是一个暗地里的奖励模型

本文提出了一种称为DPO（Direct Preference Optimization）的算法来解决无监督语言模型中的可控性问题，并在实验中表明，相较于传统的RLHF方法，DPO不仅表现更好，而且更加稳定和简单。

May, 2023

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线RL方法更稳定的模型训练和更高的性能。

Aug, 2023

强化微调语言模型中的梯度消失

RFT中存在梯度消失问题，通过实验和理论分析，表明小奖励标准差导致梯度消失是普遍和不利的，而对初始监督微调阶段的常见做法是最有前景的候选方法，此阶段可以是计算和数据标注工作方面较为经济的较少步骤，对成功执行RFT至关重要。

Oct, 2023

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小LLM对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

大规模语言模型对线机恁学习的离维匀整进化

通过使用单轨迹数据集，本研究提出了DRO（Direct Reward Optimization）框架和相关算法，无需配对偏好数据，采用简单的均方误差目标函数实现。使用T5编码器-解码器语言模型进行实证验证，证实了DRO相对于KTO等基准模型在单轨迹策略优化方面的性能优势。

May, 2024

探索性偏好优化：利用隐含的Q*近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强DPO目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了XPO具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。

May, 2024

逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习

本研究解决了现有的大语言模型对齐方法依赖复杂技术和样本效率低下的问题。我们提出的逆Q*框架通过直接优化模型回应的条件最优策略，实现了标记级强化学习的创新，减少了对人工注释的依赖。实验结果表明，逆Q*在收敛速度和模型回应对齐人类偏好的效果上，甚至可能超过传统方法PPO，具有广泛的应用潜力。

Aug, 2024

逆向Q*: 无需偏好数据的大语言模型对齐的令牌级强化学习

本研究解决了在大语言模型对齐中传统强化学习方法复杂性过高和样本效率低的问题。提出的逆向Q*框架优化了令牌级强化学习，通过直接从模型响应中估计条件最佳策略，减少了对人类注释和外部监督的依赖。研究结果表明，逆向Q*在收敛速度和对齐有效性上可能超过了传统的PPO方法，为大语言模型的高效训练提供了切实可行的解决方案。

Aug, 2024

通过可扩展的逆强化学习模仿语言

本研究解决了传统模仿学习在预训练和监督微调阶段的局限，提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展，研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能，使逆强化学习成为微调大语言模型的有力替代方案。

Sep, 2024