奖励汤：通过插值微调多样化奖励权重实现帕累托最优对齐

Jun, 2023

奖励汤：通过插值微调多样化奖励权重实现帕累托最优对齐

Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards

Alexandre Rame, Guillaume Couairon, Mustafa Shukor, Corentin Dancette, Jean-Baptiste Gaya...

TL;DR本研究提出使用多策略策略来包容多样奖励，应用于文本到文本，文本到图像和控制任务中，以增强深度模型的对与多样世界的交互的对准。

Abstract

foundation models are first pre-trained on vast unsupervised datasets and then fine-tuned on labeled data. reinforcement learning, notably from human feedback (RLHF), can further align the network with the intend

foundation models reinforcement learning multi-policy strategy diverse rewards deep models alignment

发现论文，激发创造

缓解奖励过度优化的可扩展集成方法

使用共享编码器但独立的线性头部，以减小存储和训练时间开销，解决了语言模型在强化学习中的过度优化问题。

Jun, 2024

个性化汤：通过事后参数合并实现个性化大型语言模型对齐

通过将 Reinforcement Learning from Human Feedback (RLHF) 转变为 Reinforcement Learning from Personalized Human Feedback (RLPHF)，通过多目标强化学习问题的建模，可以实现 LLMs 与个人偏好的个性化对齐。通过将偏好维度进行分解，并在分布式环境中独立有效地进行训练，最后通过参数合并有效地实现多维度的个性化对齐。

Oct, 2023

上下文奖励：基于动态偏好调整的多目标基础模型对齐

通过 Rewards-in-Context（RiC）的方法，本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法，并通过监督微调在推断过程中支持用户偏好的动态调整，从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相比，对齐大型语言模型（LLMs）和扩散模型以适应多样化的奖励。

Feb, 2024

通过个性化和偏好聚合来自异构反馈的基于原则的 RLHF

利用个性化和聚合两个框架解决存在异质人类反馈的增强学习中的问题并确保较高的样本效率。

Apr, 2024

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

使用对比奖励提升来自人类反馈的强化学习

本文通过引入一种名为对比奖励的奖励惩罚项，改进了奖励模型的效果，在强化学习中对奖励的不确定性进行了压制，提高了鲁棒性，鼓励基准改进，根据任务难度进行校准，并减少了 PPO 中的方差。经实证表明，对比奖励可以极大提高从人类反馈中强化学习的效果，无论是通过 GPTs 还是人类评价，我们的方法始终优于强基准。

Mar, 2024

MaxMin-RLHF: 大规模语言模型与多样化人类偏好的公平对齐

通过使用期望最大化算法，学习一种偏好分布的混合，以及基于社会选择理论中的平等原则提出一种最大最小对齐目标，提高代表多样化人类偏好的能力，并通过小规模和大规模语言模型的实验结果证明其有效性和公平性。

Feb, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

WARP: 关于加权平均奖励策略的好处

使用人类反馈进行强化学习的 WARP 方法，在保持预训练知识的同时优化奖励函数，经过迭代逐渐改进 KL - 奖励的权衡，提升了 GEMMA 策略的质量和对齐度。

Jun, 2024

利用优势引导的策略对齐对语言模型进行微调

本研究提出了一种新算法 APA，利用估计的优势建立基于平方误差损失函数的算法进行优化，证明在使用单独的奖励模型作为评估器时，APA 明显优于 PPO，并且在控制模型初始策略与改进性能之间提供更稳定的形式控制，避免了模式崩溃、不稳定性和样本效率低等问题。

Jun, 2023