上下文奖励：基于动态偏好调整的多目标基础模型对齐

Feb, 2024

上下文奖励：基于动态偏好调整的多目标基础模型对齐

Rewards-in-Context: Multi-objective Alignment of Foundation Models with Dynamic Preference Adjustment

Rui Yang, Xiaoman Pan, Feng Luo, Shuang Qiu, Han Zhong...

TL;DR通过 Rewards-in-Context（RiC）的方法，本文提出了一种用于多目标对齐基础模型和人类偏好的简洁和适应性方法，并通过监督微调在推断过程中支持用户偏好的动态调整，从而在只使用大约 10% 的 GPU 时间与多目标强化学习基准相比，对齐大型语言模型（LLMs）和扩散模型以适应多样化的奖励。

Abstract

We consider the problem of multi-objective alignment of foundation models with human preferences, which is a critical step towards helpful

multi-objective alignment foundation models human preferences rewards-in-context (ric)supervised fine-tuning

发现论文，激发创造

奖励汤：通过插值微调多样化奖励权重实现帕累托最优对齐

本研究提出使用多策略策略来包容多样奖励，应用于文本到文本，文本到图像和控制任务中，以增强深度模型的对与多样世界的交互的对准。

Jun, 2023

现场策略迭代

本文提出了一种名为 ICPI 的算法，它使用基础模型在上下文中执行强化学习任务，通过试错交互更新提示内容，以实现无需专家示范或梯度的强化学习任务。

Oct, 2022

通过多目标偏好聚合的动态价值调整

通过动态价值对齐的多目标方法，扩展了深度 Q-Learning 以适应多个目标，在一个由切换代理程序控制的简化交叉口上，动态适应驾驶员对系统的偏好，实现了在速度、停车和等待等三个指标上更好的综合性能，同时整合了具有竞争或冲突行为的目标。

Oct, 2023

LIRE：面向偏好对齐的逐项奖励增强

提出了一种基于梯度的奖励优化方法 Listwise Reward Enhancement for Preference Alignment (LIRE)，将多个回复的离线奖励融入到简化的列表框架中，从而在训练过程中不需要在线采样。通过自我增强算法，LIRE 在对话和摘要任务的多个基准测试中持续优于现有方法，并且在使用代理奖励模型和人工标注者进行评估时具有良好的迁移性。

May, 2024

大型语言模型对齐的多样化偏好

通过混合不同的人类偏好数据集以增加数据量来增强奖励建模的方法可能失败，因此该研究提出了一种名为 MORE 的新的训练策略，通过自适应调整偏好目标来捕捉不同偏好中的共享人类价值观，实验证明 MORE 相较于其他方法在奖励准确性和校准误差方面有更好的表现。

Dec, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024

通过奖励函数优化进行行为对齐

通过使用双层目标的新框架，将辅助奖励与环境的主要奖励相结合，我们提供了一种集成设计者指定的启发式方法的鲁棒且有原则的方式，以解决现有方法的主要缺点，即使给出不对齐或指定不良的辅助奖励函数，也能始终导致高性能解决方案。

Oct, 2023

通过群不变学习提高对人类偏好的对齐的泛化能力

通过增强学习技术，我们提出了一种新方法来训练基于语言模型的 AI 助手，在不同数据组和领域之间实现一致的策略，并提高训练稳定性和模型泛化能力。

Oct, 2023

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

无偏好的对齐学习与正则化相关回报

学习人类偏好被认为是将大型语言模型与人类价值观保持一致的关键，然而，与普遍看法相反，我们的初步研究发现，在人类偏好数据集训练的奖励模型倾向于给长期离题的回复比给短期主题相关的回复更高的分数。受此观察的启发，我们探索了一种无偏好的方法，利用 “相关性” 作为关键目标以实现一致性。在我们的首次尝试中，我们发现仅使用一个可检索器获得的相关性分数作为强化学习的奖励时，容易受到奖励欺骗的影响，即对不希望的快捷方式过度优化。为了减轻这种影响，我们将有效的归纳偏差整合到传统相关性中以相互规范化，从而产生了一种奖励函数的混合：正则化相关性奖励 ($R^3$)。$R^3$ 通过提供稳健的奖励信号，在偏好基准测试中显著提高了性能。值得注意的是，$R^3$ 无需任何人类偏好数据集（即无偏好），在提高人类偏好方面胜过开源奖励模型。我们的分析表明，$R^3$ 在提高人类偏好的同时，最大程度地减少了其副作用。最后，我们展示了 $R^3$ 的一般化能力，它在各种主干和规模的针对指令的模型中持续提高，而无需额外的数据集成本。我们的代码可在 https URL 上找到。

Feb, 2024