人在环路强化学习的小样本偏好学习
本文提出了基于学习奖励值的新颖探索方法来解决当前偏好型强化学习算法中人类反馈低效的问题,并在MetaWorld基准测试的复杂机器人操作任务中证明了其有效性。
May, 2022
本研究基于元强化学习框架,探究了在人机交互中,通过基于偏好的反馈,而非数值奖励,在少数试验中快速调整策略以适应新任务的机制,并通过信息论技术设计问题序列来最大化人类专家的信息获取效率,实验结果表明其显著优于传统算法。
Nov, 2022
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。
Feb, 2023
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
提出一种新颖的零样本基于偏好的强化学习算法,利用源任务的标注偏好数据来推断目标任务的标注数据,然后利用Gromov-Wasserstein距离来对齐源任务和目标任务的轨迹分布,并使用Robust Preference Transformer模型来训练奖励函数和策略模型,其结果表明该方法具有在转移学习环境下学习偏好并能从含噪偏好标签学习奖励函数的能力。
Jun, 2023
通过排列的方式学习奖励函数,本研究提出了一个新的强化学习框架-HERON,通过比较轨迹并使用决策树进行优先级排序来训练基于偏好的奖励模型,从而在处理复杂任务时减少了人工成本同时提高了性能。
Sep, 2023
使用最大熵原理,引入了一种从人类反馈中优化行为的新型算法Contrastive Preference Learning (CPL),该算法能够在不学习奖励函数的情况下,通过偏好学习最优策略,克服了优化挑战并能应用于任意MDPs环境。
Oct, 2023
本研究解决了现有强化学习人类反馈(RLHF)方法无法处理个体偏好差异的问题。我们提出了一种新颖的多模态RLHF方法,通过推断用户特定的潜在变量来定制奖励模型和策略,实现个性化学习。实验证明,该方法在不同用户群体中有效提高了奖励函数的准确性,并在处理不确定性和积极学习用户偏好方面表现出显著优势。
Aug, 2024
本研究解决了复杂行为中的奖励函数设计问题,提出了一种名为上下文偏好学习(ICPL)的方法,通过大型语言模型(LLMs)将人类偏好转化为奖励代码,从而加速学习过程。研究表明,ICPL在效率上远超传统人类反馈强化学习(RLHF),并且在与真人反馈互动中同样有效。
Oct, 2024