使用稀疏自编码器解释RLHF调整的语言模型中的奖励模型

Oct, 2023

使用稀疏自编码器解释RLHF调整的语言模型中的奖励模型

Interpreting Reward Models in RLHF-Tuned Language Models Using Sparse Autoencoders

Luke Marks, Amir Abdullah, Luna Mendez, Rauno Arike, Philip Torr...

TL;DR通过稀疏自编码器解释强化学习调整的大型语言模型中的学习奖励机制，进一步检查语言模型中的奖励学习，以确保目标与模型行为之间的一致性。

Abstract

large language models (LLMs) aligned to human preferences via reinforcement learning from human feedback (RLHF) underpin many commercial applications. However, how RLHF impacts LLM internals remains opaque. We pr

发现论文，激发创造

SuperHF：基于人类反馈的监督式迭代学习

基于大型语言模型对齐的一种新方法SuperHF，旨在解决安全性、人类价值的对齐以及训练稳定性方面的挑战。SuperHF结合了Supervised Fine-Tuning和Reinforcement Learning from Human Feedback的优点，并通过替换PPO算法和引入KL divergence先验，提出了一种新的训练方法。实验结果表明，SuperHF在训练目标、奖励优化和模型性能等方面表现优于基于PPO的RLHF，具有竞争力的语言模型对齐技术。

Oct, 2023

大型语言模型中RLHF的秘密之二：奖励建模

从数据和算法的角度出发，本文针对强化学习通过人类反馈进行优化的技术中面临的困难提出了解决方法，包括使用多个奖励模型进行数据评估和投票机制来消除数据中错误和模糊偏好的影响，并引入对比学习和元学习来增强奖励模型的区分能力和泛化能力，从而实现迭代优化。

Jan, 2024

强化学习中基于人类反馈的免费密集奖励

从人类反馈中进行强化学习是使大型语言模型能够有效地遵循指令并产生有用辅助的关键进展，通过使用注意力权重重新分配奖励以高亮最重要的标记，它在稳定训练、加快学习速度和实现更好的局部最优解方面展现了实证优势。

Feb, 2024

使用强化学习训练大型语言模型进行推理

从人类反馈中进行强化学习（RLHF）已成为将LLM输出与人类偏好对齐的一种主要方法。受RLHF成功的启发，我们研究了从反馈中学习（Expert Iteration，Proximal Policy Optimization（PPO），Return-Conditioned RL）对改善LLM推理能力的多种算法的性能。我们通过启发式和学习的奖励模型为LLM提供了稀疏和密集奖励。我们还从多种模型尺寸和初始化状态，包括有和没有经过监督微调（SFT）数据的情况开始研究。总的来说，我们发现所有算法的性能相当，大多数情况下Expert Iteration的性能最佳。令人惊讶的是，我们发现Expert Iteration的样本复杂度与PPO相似，需要最多约$10^6$个样本从预训练检查点收敛。我们研究了为什么会这样，并得出结论，在RL训练期间，模型未能在SFT模型已经产生的解之外进行显着的探索。此外，我们讨论了SFT训练期间maj@1和pass@96度量性能之间的取舍，并且相反，RL训练同时改善了两者。最后，我们讨论了我们的发现对RLHF和LLM微调中RL的未来角色的影响。

Mar, 2024

RLHF 揭示：对于LLMs的强化学习从人类反馈的关键分析

通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础，重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱，以及它们对训练算法的影响，同时揭示了当前方法的局限性。通过对现有文献的分类评论，我们对RLHF的挑战进行了描述，为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。

Apr, 2024

基于大型语言模型的高效强化学习搜索

通过将大型语言模型与MEDIC框架结合，我们的研究旨在改善强化学习的样本效率，特别针对稀疏奖励领域和随机转换等问题，以提高 PPO 和 A2C 强化学习算法的样本复杂度，并为进一步探索如何利用这些模型增强现有强化学习流程铺平道路。

May, 2024

数据有效的强化学习高阶函数的典型奖励网络

利用Proto-RM框架来增强在受限制的人类反馈条件下的奖励模型和优化语言模型的微调，显著提高了适应性和准确性，并且在数据受限场景中比传统方法要求更少的数据。

Jun, 2024

正则化隐藏状态实现学习面向通用化奖励模型的长期记忆模型

基于规则模型的泛化能力有限，而本研究提出了一种新颖的方法来增强奖励模型对分布偏移的泛化能力，并有效减轻强化学习反馈中的过优化问题。

Jun, 2024

序列到序列奖励建模：通过语言反馈改善RLHF

本研究解决了大型语言模型（LLMs）与人类意图及价值观对齐的偏差问题，提出了一种新的序列到序列奖励建模方法。通过采用语言反馈而非标量反馈，该方法在无需额外注释的情况下改进了强化学习（RLHF）的效果，实验证明它提升了在多项自然语言处理任务中的性能。该创新方法显著减少了对话中的拒绝响应现象，并改善了文本摘要任务中的长响应偏倚。

Aug, 2024

奖励鲁棒性RLHF在大型语言模型中的应用

本研究解决了基于奖励模型的对齐方法由于不稳定性和不完美性带来的挑战，旨在提升大型语言模型（LLMs）的学习可靠性。通过引入一种新的优化目标，结合贝叶斯奖励模型集（BRME）来建模奖励函数的不确定性，该框架在保障性能的同时提高鲁棒性。实证结果表明，该框架在各类基准测试中表现优于传统的RLHF方法，显示出更高的准确性和长期稳定性。

Sep, 2024