SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF

EMNLPOct, 2023

SteerLM: 属性调节的 SFT 作为 (用户可操控的) 替代 RLHF

SteerLM: Attribute Conditioned SFT as an (User-Steerable) Alternative to RLHF

Yi Dong, Zhilin Wang, Makesh Narsimhan Sreedhar, Xianchao Wu, Oleksii Kuchaiev

TL;DR为了解决强化学习从人类反馈中采集隐式价值观的困难，本研究提出了一种名为 SteerLM 的监督微调方法，使最终用户能够在推理过程中控制生成的回复，从而生成有帮助且高质量的回复，同时保持可定制性。

Abstract

model alignment with human preferences is an essential step in making Large Language Models (LLMs) helpful and consistent with human values. It typically consists of supervised fine-tuning (SFT) and →

model alignment large language models supervised fine-tuning reinforcement learning steerlm

发现论文，激发创造

直觉微调：将 SFT 和 RLHF 统一为单一流程

Supervised Fine-Tuning (SFT) 和 Reinforcement Learning from Human Feedback (RLHF) 是增强语言模型（LMs）能力的两个基本过程，它们可以更好地与人类偏好相一致，然而当前常见的做法是简单地按顺序应用它们，而没有统一它们的优化目标，导致在适应不同目标之间存在权衡，并忽视了用两者的长处弥合这个范式差距的机会。为了统一理解，我们在马尔可夫决策过程（MDP）框架中通过两个子过程 —— 偏好估计和转移优化来解释了 SFT 和 RLHF。通过这种建模方式，我们发现 SFT 只是 RLHF 的一个特殊情况，其估计和优化能力较差。因此，SFT 高估了模型的能力，导致优化效果不佳。基于这个观点，我们引入了直观微调（IFT）将 SFT 和 RLHF 集成为一个单一过程。IFT 通过一个时间残差连接捕捉 LMs 对整个答案的直观感知，同时使用与 SFT 相同数量的非偏好标记数据和一个单一策略。我们的实验证明，IFT 在几个任务上，特别是那些需要生成、推理和遵循事实能力的任务上，表现出与 SFT 和一些典型的对齐方法相当甚至更优的性能。一个可解释的 Frozen Lake 游戏进一步验证了 IFT 的有效性。

May, 2024

从人类演示中学习奖励优化 SFT 数据：提高 LLM 对齐的方法

对齐人类偏好和价值是当代基础模型的重要需求。本研究提出了一种基于逆强化学习的监督微调方法，通过学习奖励模型来代替直接使用人类示范数据，并且在整个对齐过程中从始至终地利用奖励学习，取得了显著的性能提升。

May, 2024

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法 SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF 结合了 Supervised Fine-Tuning 和 Reinforcement Learning from Human Feedback 的优点，并通过替换 PPO 算法和引入 KL divergence 先验，提出了一种新的训练方法。实验结果表明，SuperHF 在训练目标、奖励优化和模型性能等方面表现优于基于 PPO 的 RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

SALMON：自我对齐与遵循原则的奖励模型

该研究提出了一种名为 SALMON 的新方法，使用仅包含少量人定的原则和基于合成偏好数据训练的奖励模型，实现了对基础语言模型的自动对齐，通过调整原则控制奖励模型的偏好，进而影响强化学习训练的策略的行为，消除了对在线人类偏好收集的依赖，其在各种基准数据集上显著超越了几种最先进的人工智能系统，包括 LLaMA-2-Chat-70b，提高了监督效率、可控性和可扩展性。

Oct, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

强化学习的更多人类友好性，更多的信任？对语言模型可靠性的影响

研究发现在大型语言模型的发展中，通过认同与人类价值观的算法对模型进行对齐的性能虽有所改善，但对模型的可信度提升并未经过彻底的测试。通过对五个可信度垂直方面进行实证研究，发现在偏好数据、对齐算法和特定可信度方面之间存在复杂的相互作用。因此，需要更加微妙的方法对模型进行对齐，以期望引导研究社区开发既能胜任任务又值得信赖的语言模型。

Apr, 2024

使用直接偏好头进行语言模型的推理时间对齐

通过使用强化学习和直接偏好头的 fine-tuning 框架，将预训练语言模型与人类偏好信号相结合，实现对模型输出的控制，并在各项评估中超越传统的有监督和直接偏好优化方法。

May, 2024

在线合并优化器用于提升回报和降低税额的对齐

通过在线合并优化器，在人类反馈强化学习中持续调节训练方向，实现大语言模型的高性能表现和对齐奖励的显著提升，同时减小对齐成本。

May, 2024

平衡增强、无害性和通用能力：通过直接 RLHF 提高对话式 LLMs

通过采用无害的来自人类反馈的强化学习方法，我们绕过了监督微调，直接应用于 Mistral，从而创建了 Mistral-Plus，它不仅保留了基础模型的通用能力，还显著增强了其对话能力，并大幅减少了有毒输出的生成。

Mar, 2024

超越模仿：利用细粒度质量信号进行对齐

我们提出了一种名为 FIGA 的改进对齐方法，通过利用细粒度的质量信号，即对比好坏回答的方式，指导大型语言模型的对齐学习。实验证明了我们的方法的有效性。

Nov, 2023