本研究提出了一种元强化学习算法的框架,该框架可以适应于测试时间任务分布变化,以提高在分布转移下的领域中的适应能力和性能。
Oct, 2022
基于大型语言模型的基石模型,通过人类反馈的强化学习训练来捕捉期望的行为,并通过奖励模型对语言模型进行校准。然而,很少有研究评估这些奖励模型对分布偏移的鲁棒性,本研究评估了奖励模型性能与分布偏移的关系,并展示了由于异常输入导致的校准和准确率下降问题,并提出了在奖励模型中检测分布偏移的方法。
Nov, 2023
研究表明 Reward Maximization 和 Distribution Matching 之间存在理论上的联系,并发现两种方法在提高约束满足度、稳定性和样本效率方面添加基线的好处。
Jun, 2022
在本文中,我们提出了基于模型识别和经验重新标注(MIER)的元强化学习算法,它是一种有效的算法,可以在测试时面对分布外的任务进行良好拟合,而无需使用元强化学习
Jun, 2020
提出了一种双 MDP 元强化学习方法,该方法将语言指令和对称数据结合到元 RL 中,能够显著提高元强化学习的泛化能力和学习效率。
Sep, 2022
本文提出了一种基于模型的对抗元强化学习算法 (Model-based Adversarial Meta-Reinforcement Learning),通过最小化所有任务中最劣情况的次优差异 (sub-optimality gap),以及使用最大化次优性策略的对抗任务找到最优策略,以提高元强化学习算法在任务分布变化下的泛化能力和性能效率,试验表明该算法具有优异性能。
通过将来自人类反馈的强化学习应用于语言模型,本研究综合探索和比较不同技术,通过引入奖励模型提高机器翻译的质量,并发现有效的数据过滤和结合奖励模型与排名技术能显著提高翻译质量。
通过离线强化学习从人类反馈中对齐语言模型,采用最大似然估计、加权回归奖励和决策变换方法,实现了比在线 RL 方法更稳定的模型训练和更高的性能。
Aug, 2023
RRHF 是一种新的学习范式,通过排名损失函数对生成的回答进行评分,从而能够有效地将语言模型输出与人类偏好对齐,而且只需要 1 到 2 个模型进行调整,效果与微调相当。
Apr, 2023
提出了一种基于策略的奖励学习(RLP)无监督框架,通过使用策略样本来完善奖励模型,以保持其在分布上的一致性,实验结果表明 RLP 在三个基准数据集上始终优于现有技术。
Mar, 2024