研究提出了一种有效的轨迹对采样方法,用于探索隐藏的奖励函数,以便在收集人类反馈之前准确地学习,比现有文献更少地需要人类反馈量来学习基于偏好模型的最优策略,可以考虑线性和低秩MDP
May, 2023
在这项研究中,我们利用代理人能够选择获取人工反馈的上下文的事实,引入了离线情境对决贝叶斯臂设置,提出了一种基于上置信界的算法,并证明了一种遗憾上界。实验证实了该方法胜过使用均匀采样上下文的类似策略。
Jul, 2023
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意MDPs环境。
Oct, 2023
提出了一种基于主动学习的RLHF方法,通过半数查询获得与最先进的DPO方法相当的性能。
Feb, 2024
通过强化学习原理的角度分析了强化学习来自人类反馈的语言模型的基础,重点关注了奖励模型作为RLHF核心组件的建模选择、函数逼近的陷阱,以及它们对训练算法的影响,同时揭示了当前方法的局限性。通过对现有文献的分类评论,我们对RLHF的挑战进行了描述,为研究人员和从业者理解RLHF的挑战并建立在现有研究的基础上提供参考。
Apr, 2024
通过多任务表示学习的方式,我们将人类反馈强化学习 (RLHF) 问题建模为一种上下文二分问题,并假设存在一种共同线性表示。我们证明了考虑任务相关性,并为具有不同任务相关性的源任务分配不同样本数量可以降低多任务 RLHF 中的样本复杂度。此外,由于表示学习,目标任务的样本复杂度仅与潜在空间的维度成线性关系。
May, 2024
通过开发一种无模型的强化学习方法,本研究以人类反馈为基础,通过对动作进行对抗性竞争,提出了一个可直接从人类偏好信息中识别最佳策略的 RLHF 算法,证明了在样本复杂度方面 RLHF 并不比传统强化学习更困难,并且通过规避奖励推断中的问题,如过拟合和分布偏移,可能提供改进的性能。
Jun, 2024
该研究解决了在人类反馈强化学习过程中,奖励推断面临的多个挑战,包括双重问题误设定和奖励模型评估困难。论文提出了两种无需奖励推断的强化学习算法,利用人类偏好估计本地价值函数差异,从而为更一般的强化学习问题提供了有效的解决方案。研究结果表明,无奖励推断的有效方法确实存在,从而可能对大规模语言模型的训练产生重大影响。
Sep, 2024
本研究解决了从人类反馈中学习奖励函数的效率问题,提出了一种双重主动奖励学习算法,能够同时选择对话和教师以提高数据质量。通过利用悲观强化学习和自适应选择策略,理论上证明了所获得的奖励估计器具有最小的推广方差,并在模拟实验中显示了该算法相较于现有技术的优越性。
Oct, 2024
本研究解决了强化学习中奖励模型正确规范的重要挑战,特别是手工设计的奖励函数往往导致低效或次优的策略。文章提出了一种简单而有效的方法,利用大型语言模型的反馈作为潜在性塑造函数,显著提高了收敛速度和策略回报,克服了排名错误带来的影响。