利用基于偏好的反馈为增强学习中的许多应用程序提供重要支持,本研究通过离线情境决斗机制问题的算法和多项式最坏情况遗憾边界,提供了一种在人类反馈训练大型语言模型中有效识别良好策略的方法,并在三个实际数据集上通过较少的人类偏好样本取得更好的性能。
Dec, 2023
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
该研究提出了一种利用离线数据进行奖励函数学习和策略优化的方法,该方法不需要真实物理试验或准确的模拟器,并能够学习完成离线数据未曾显示的新任务。
Jul, 2021
这篇论文研究了基于人类反馈的强化学习方法,通过一种概率偏好模型来学习,实验了一种新的学习范式,KL 正则化 NLHF,旨在找到以初始模型为基础,持续生成优于竞争策略的响应的策略,并将其与传统的强化学习理论联系起来,验证了无奖励模型学习在一般偏好下的潜力。
Feb, 2024
通过整合离线偏好和虚拟偏好,将离线数据和学习代理的行为进行比较,从而加强了基于偏好的强化学习中的奖励函数对代理行为的指导,提高了其泛化能力。
Mar, 2024
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法 Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意 MDPs 环境。
Oct, 2023
通过一系列实验证明在线方法优于离线方法,且离线算法训练的策略对生成任务更差,而在线算法对成对分类较差,提示在线采样在人工智能对齐中扮演了关键角色,并暗示了离线对齐算法的一些基本挑战。
May, 2024
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023
我们介绍了在线迭代强化学习(RLHF)的工作流程,通过构建偏好模型和使用监督微调和迭代 RLHF,我们在大规模语言模型方面取得了令人印象深刻的性能,通过详细的实现指南,我们提供了一种易于复现的在线迭代 RLHF 方法。
利用学习到的环境模型,在完全离线的环境中提出了一种离线基于偏好的强化学习算法 Sim-OPRL,通过模拟轨迹获取偏好反馈,对于超出分布的数据采用悲观方法,对于获取最优策略相关的信息采用乐观方法,提供了关于样本复杂度的理论保证,最后通过在不同环境中的实验结果展示了 Sim-OPRL 的经验性能。
Jun, 2024