MetaRM: 通过元学习实现偏移分布对齐 | BriefGPT - AI 论文速递

May, 2024

MetaRM: 通过元学习实现偏移分布对齐

MetaRM: Shifted Distributions Alignment via Meta-Learning

Shihan Dou, Yan Liu, Enyu Zhou, Tianlong Li, Haoxiang Jia...

TL;DR利用元学习来解决环境分布变化引起的强化学习中奖励模型难以区分响应以及难以泛化到新例子的问题。

Abstract

The success of reinforcement learning from human feedback (RLHF) in language model alignment is critically dependent on the capability of the rew

reinforcement learning from human feedback reward model output distribution metarm alignment

发现论文，激发创造

分布自适应元强化学习

本研究提出了一种元强化学习算法的框架，该框架可以适应于测试时间任务分布变化，以提高在分布转移下的领域中的适应能力和性能。

Oct, 2022

基线分析奖励模型在分布转移下准确分析基础模型的能力

基于大型语言模型的基石模型，通过人类反馈的强化学习训练来捕捉期望的行为，并通过奖励模型对语言模型进行校准。然而，很少有研究评估这些奖励模型对分布偏移的鲁棒性，本研究评估了奖励模型性能与分布偏移的关系，并展示了由于异常输入导致的校准和准确率下降问题，并提出了在奖励模型中检测分布偏移的方法。

Nov, 2023

关于强化学习和分布匹配的论文，用于微调语言模型以避免灾难性遗忘

研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系，并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。

Jun, 2022

通过模型识别和经验再标记实现对分布偏移鲁棒的元强化学习

在本文中，我们提出了基于模型识别和经验重新标注（MIER）的元强化学习算法，它是一种有效的算法，可以在测试时面对分布外的任务进行良好拟合，而无需使用元强化学习

Jun, 2020

从对称性学习：具有对称数据和语言指示的元强化学习

提出了一种双 MDP 元强化学习方法，该方法将语言指令和对称数据结合到元 RL 中，能够显著提高元强化学习的泛化能力和学习效率。

Sep, 2022

基于模型的对抗元强化学习

本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning)，通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap)，以及使用最大化次优性策略的对抗任务找到最优策略，以提高元强化学习算法在任务分布变化下的泛化能力和性能效率，试验表明该算法具有优异性能。

Jun, 2020

神经机器翻译模型的对齐：训练和推理中的人工反馈

通过将来自人类反馈的强化学习应用于语言模型，本研究综合探索和比较不同技术，通过引入奖励模型提高机器翻译的质量，并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。

Nov, 2023

使用离线强化学习与人类反馈对齐语言模型

通过离线强化学习从人类反馈中对齐语言模型，采用最大似然估计、加权回归奖励和决策变换方法，实现了比在线 RL 方法更稳定的模型训练和更高的性能。

Aug, 2023

RRHF：无需痛苦排名回应，将语言模型与人类反馈对齐

RRHF 是一种新的学习范式，通过排名损失函数对生成的回答进行评分，从而能够有效地将语言模型输出与人类偏好对齐，而且只需要 1 到 2 个模型进行调整，效果与微调相当。

Apr, 2023

利用策略奖励学习对语言模型进行微调

提出了一种基于策略的奖励学习（RLP）无监督框架，通过使用策略样本来完善奖励模型，以保持其在分布上的一致性，实验结果表明 RLP 在三个基准数据集上始终优于现有技术。

Mar, 2024