逆向Q*: 无需偏好数据的大语言模型对齐的令牌级强化学习

Aug, 2024

逆向Q*: 无需偏好数据的大语言模型对齐的令牌级强化学习

Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data

Han Xia, Songyang Gao, Qiming Ge, Zhiheng Xi, Qi Zhang...

TL;DR本研究解决了在大语言模型对齐中传统强化学习方法复杂性过高和样本效率低的问题。提出的逆向Q*框架优化了令牌级强化学习，通过直接从模型响应中估计条件最佳策略，减少了对人类注释和外部监督的依赖。研究结果表明，逆向Q*在收敛速度和对齐有效性上可能超过了传统的PPO方法，为大语言模型的高效训练提供了切实可行的解决方案。

Abstract

Reinforcement Learning from Human Feedback (RLHF) has proven effective in aligning Large Language Models with human intentions, yet it often relies on complex methodologies like Proximal Policy Optimization (PPO)

发现论文，激发创造

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线RL方法更稳定的模型训练和更高的性能。

Aug, 2023

LLM时代的强化学习: 什么是必要的? 什么是需要的? 强化学习在RLHF, Prompting和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点，探索为RLHF研究带来或贡献的潜在未来方向。

Oct, 2023

回归基础：重新评估LLMs中学习人类反馈的REINFORCE样式优化

通过改进Proximal Policy Optimization，使用REINFORCE-style optimization的方法在低成本情况下实现在线强化学习优化，从而提高AI对人类反馈的RLHF的性能。

Feb, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小LLM对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

从$r$到$Q^*$：您的语言模型暗地里是一个Q函数

使用引导反馈的强化学习是生成式人工智能模型成功的关键，本研究讨论了直接偏好优化(DPO)作为替代方法的应用，通过理论和实证结果证明了在令牌级马尔科夫决策过程(MDP)中，DPO能够在信用分配和搜索算法等方面产生有意义的改进。

Apr, 2024

反转-RL对齐：基于示范的反推强化学习用于LLM对齐

利用高质量的演示数据，我们提出了一种名为AfD的新方法，通过在顺序决策框架中形式化AfD，解决了诸如噪声标签、高昂的注释成本和隐私问题等挑战，我们通过引入分歧最小化目标来解决AfD独特的缺失奖励信号的问题，并提出了一个在定制奖励模型上超出的计算效率算法，通过在Harmless和Helpful任务上的实验证明了我们的关键见解，展示了其强大的经验性能，并保持了简洁性。

May, 2024

探索性偏好优化：利用隐含的Q*近似进行样本高效的强化学习优化

强化学习从人类反馈中进行学习已成为语言模型对齐的核心工具。我们考虑强化学习从人类反馈中进行在线探索，通过鼓励模型产生多样化、最具信息量的回应，充分利用与人类或人工智能反馈的互动访问。我们提出了一种新的在线探索算法XPO（Exploratory Preference Optimization），它通过引入新颖而且有原则的探索奖励来增强DPO目标，使该算法能够在初步模型支持和人类反馈数据之外进行探索。从理论上来看，我们证明了XPO具有高效采样和在自然探索条件下收敛到近乎最优语言模型策略的可靠性。在实证方面，我们发现XPO在初步评估中比非探索性DPO变体具有更高的样本效率。

May, 2024

MEReQ：最大熵残差Q逆强化学习用于样本高效对齐

利用 MEReQ（Maximum-Entropy Residual-Q Inverse Reinforcement Learning）方法，可以通过人类介入进行样本高效的策略对齐。

Jun, 2024

逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习

本研究解决了现有的大语言模型对齐方法依赖复杂技术和样本效率低下的问题。我们提出的逆Q*框架通过直接优化模型回应的条件最优策略，实现了标记级强化学习的创新，减少了对人工注释的依赖。实验结果表明，逆Q*在收敛速度和模型回应对齐人类偏好的效果上，甚至可能超过传统方法PPO，具有广泛的应用潜力。

Aug, 2024

通过可扩展的逆强化学习模仿语言

本研究解决了传统模仿学习在预训练和监督微调阶段的局限，提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展，研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能，使逆强化学习成为微调大语言模型的有力替代方案。

Sep, 2024