通过可扩展的逆强化学习模仿语言

Sep, 2024

通过可扩展的逆强化学习模仿语言

Imitating Language via Scalable Inverse Reinforcement Learning

Markus Wulfmeier, Michael Bloesch, Nino Vieillard, Arun Ahuja, Jorg Bornschein...

TL;DR本研究解决了传统模仿学习在预训练和监督微调阶段的局限，提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展，研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能，使逆强化学习成为微调大语言模型的有力替代方案。

Abstract

The majority of language model training builds on Imitation Learning. It covers pretraining, Supervised Fine-Tuning, and affects the starting conditions for reinforcement learning from human feedback (RLHF). The

发现论文，激发创造

从语言到目标：基于视觉的逆强化学习指令跟随

本研究探讨了使用反强化学习将语言命令作为奖励函数的问题，并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法，即语言条件奖励学习（LC-RL）。实验结果表明，与直接学习语言条件策略相比，使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。

Feb, 2019

IQ-Learn: 逆软Q学习用于模仿

介绍了一种动态感知的逆强化学习方法——IQ-Learn，它通过学习单个Q函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

利用反强化学习的多重奖励组分将语言映射到程序

本文介绍了一种基于逆强化学习和良好奖赏定义的模型，将自然语言指令映射成能够被计算机处理的程序，并在VirtualHome框架中进行了改进实验，取得了更好的性能表现，且数据效率更高，并获得了人类评估者更高的评分。

Oct, 2021

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小LLM对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

反转-RL对齐：基于示范的反推强化学习用于LLM对齐

利用高质量的演示数据，我们提出了一种名为AfD的新方法，通过在顺序决策框架中形式化AfD，解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战，我们通过引入分歧最小化目标来解决AfD独特的缺失奖励信号的问题，并提出了一个在定制奖励模型上超出的计算效率算法，通过在Harmless和Helpful任务上的实验证明了我们的关键见解，展示了其强大的经验性能，并保持了简洁性。

May, 2024

逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习

本研究解决了现有的大语言模型对齐方法依赖复杂技术和样本效率低下的问题。我们提出的逆Q*框架通过直接优化模型回应的条件最优策略，实现了标记级强化学习的创新，减少了对人工注释的依赖。实验结果表明，逆Q*在收敛速度和模型回应对齐人类偏好的效果上，甚至可能超过传统方法PPO，具有广泛的应用潜力。

Aug, 2024

无需人工反馈的强化学习在大型语言模型最后一公里微调中的应用

本研究解决了大型语言模型在特定领域部署时缺乏人类偏好信号的最后微调问题。提出了一种新的强化学习框架，该框架在数据微调过程中获得显著性能提升，优于传统的似然最大化方法。研究成果表明，该框架可以促进模型优化，尤其是在复杂场景与不理想输出的处理上具有潜在影响。

Aug, 2024

逆向Q*: 无需偏好数据的大语言模型对齐的令牌级强化学习

本研究解决了在大语言模型对齐中传统强化学习方法复杂性过高和样本效率低的问题。提出的逆向Q*框架优化了令牌级强化学习，通过直接从模型响应中估计条件最佳策略，减少了对人类注释和外部监督的依赖。研究结果表明，逆向Q*在收敛速度和对齐有效性上可能超过了传统的PPO方法，为大语言模型的高效训练提供了切实可行的解决方案。

Aug, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024