Q-Adapter: 将您的LLM适配器训练为残差Q函数

Jul, 2024

Q-Adapter: 将您的LLM适配器训练为残差Q函数

Q-Adapter: Training Your LLM Adapter as a Residual Q-Function

Yi-Chen Li, Fuxiang Zhang, Wenjie Qiu, Lei Yuan, Chengxing Jia...

TL;DR本论文介绍了一种名为Q-Adapter的新方法，该方法通过在下游偏好数据上学习一个逼近残差Q-function的模块，以定制化预训练的大型语言模型(LLM)，在多个任务和安全对齐任务的实验中展现了对防止遗忘和学习新偏好方面的卓越性能。

Abstract

We consider the problem of adapting large language models (LLMs) pre-trained with reinforcement learning from Human Feedback (RLHF) to downstream

发现论文，激发创造

LLM时代的强化学习: 什么是必要的? 什么是需要的? 强化学习在RLHF, Prompting和更多方面的视角

最近大型语言模型（LLMs）的最新进展，引起了广泛关注，并导致了成功产品，如ChatGPT和GPT-4。它们在遵循指导和提供无害、有益和诚实（3H）回答方面的熟练程度，主要归功于人类反馈强化学习（RLHF）技术。本文旨在将传统RL研究与LLM研究中使用的RL技术联系起来。通过讨论RL的优点，探索为RLHF研究带来或贡献的潜在未来方向。

Oct, 2023

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下Expert Iteration的性能最佳。令人惊讶的是，我们发现Expert Iteration的样本复杂度与PPO相似，需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在RL训练期间，模型未能在SFT模型已经产生的解之外进行显着的探索。此外，我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍，并且相反，RL训练同时改善了两者。最后，我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。

Mar, 2024

监督微调作为逆强化学习

我们通过建立一个顺序决策框架，利用示范数据集来对齐大型语言模型（LLMs），并介绍了各种减小LLM对齐任务中差异的方法，分析了这些方法的覆盖率和寻求主模式的行为，以及传统监督微调方法的优势和劣势。

Mar, 2024

利用大型语言模型启发增强 Q-Learning

LLM-guided Q-learning combines the advantages of large language models and Q-learning without introducing performance bias, providing action-level guidance and converting hallucinations into exploration costs, resulting in improved sampling efficiency and suitability for complex control tasks.

May, 2024

增值取样用于语言模型对齐和个性化

通过价值增强抽样（VAS）的奖励优化框架，不需要共同训练策略和值函数的情况下，最大化不同奖励函数，相较于现有基线模型，在标准基准测试中不仅优于 PPO 和 DPO，而且与 Best-of-128 相比具有更低的推理成本，从而实现了优化的稳定性，并能适应仅作为 API 提供的 LLMs（例如 ChatGPT），同时为对齐的个性化 LLMs 的未来铺平道路。

May, 2024

关于奖励模型、参数更新和上下文提示的变换

我们展示了三种常用的适应工具的互换性，分别为参数更新、奖励建模和上下文提示，形成了一个三角形框架，建立了六个转换方向，每个转换方向都有助于实现各种应用。我们的工作为现有研究提供了一个整体观点，并提出了潜在的研究方向。我们希望我们的工作成为未来LLM研究的有用路线图。

Jun, 2024

通过直接偏好对齐提升量化大型语言模型的对话能力

大型语言模型（LLMs）的快速发展使它们转变为可以理解上下文细微差别并生成相关句子的对话聊天机器人，通过高级技术如调整指令和通过人类反馈进行强化学习（RLHF）紧密地反映人类价值观。我们提出了一种新颖的偏好对齐方法，即量化感知的直接偏好优化（QDPO），通过将量化的LLMs与其完整精度的对应物对齐，从而提升对话能力。在使用不同语言的两个经过指令调整的LLMs上评估时，QDPO在提高对话能力方面表现出优越性，相比已确立的后训练量化（PTQ）和知识蒸馏微调技术，标志着在开发高效且有效的对话式LLMs方面迈出了重要的一步。

Jul, 2024

逆Q*: 无需偏好数据的大语言模型对齐的标记级强化学习

本研究解决了现有的大语言模型对齐方法依赖复杂技术和样本效率低下的问题。我们提出的逆Q*框架通过直接优化模型回应的条件最优策略，实现了标记级强化学习的创新，减少了对人工注释的依赖。实验结果表明，逆Q*在收敛速度和模型回应对齐人类偏好的效果上，甚至可能超过传统方法PPO，具有广泛的应用潜力。

Aug, 2024

逆向Q*: 无需偏好数据的大语言模型对齐的令牌级强化学习

本研究解决了在大语言模型对齐中传统强化学习方法复杂性过高和样本效率低的问题。提出的逆向Q*框架优化了令牌级强化学习，通过直接从模型响应中估计条件最佳策略，减少了对人类注释和外部监督的依赖。研究结果表明，逆向Q*在收敛速度和对齐有效性上可能超过了传统的PPO方法，为大语言模型的高效训练提供了切实可行的解决方案。

Aug, 2024

通过可扩展的逆强化学习模仿语言

本研究解决了传统模仿学习在预训练和监督微调阶段的局限，提出了一种从逆强化学习视角进行语言模仿的新方法。通过重构逆软Q学习为最大似然估计的一个时间差正则化扩展，研究表明这种方法在固定的监督微调数据集上能显著提升生成的多样性与任务性能。尤其在保持多样性的同时最大化任务性能，使逆强化学习成为微调大语言模型的有力替代方案。

Sep, 2024