批量主动学习基于人类偏好的奖励函数
本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。
Oct, 2018
本文提出了一种使用确定性点过程的新的原则性批处理主动学习方法,以生成样本的多样性批次。我们还开发了可行的算法来近似DPP分布的模式,并提供了理论保证。我们在几个数据集上的实验表明了我们这种方法的价值。
Jun, 2019
本文介绍了一种基于用户反馈的偏好学习方法,利用高斯过程(GP)对奖励函数进行建模,在不增加结构限制并避免数据不足和刚性的问题的情况下,仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。
May, 2020
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在Meta-World中训练出具有更好效果的机器人策略模型。
Dec, 2022
为了实现机器人在不同环境和人类偏好中的适应性,本研究提出了在线稀疏二元偏好查询的方法,通过设计查询和决定何时呈现查询来最大化查询结果的信息价值,从而使得机器人能够快速适应实际应用场景并减轻人类专家的负担,在模拟,人类用户研究和真实机器人实验中,该方法表现优于传统技术并减少人类专家的查询负担。
Feb, 2023
提出了一种名为Inverse Preference Learning(IPL)的新算法,用于从离线偏好数据中学习奖励函数,该算法使用Q函数来代替学习得到的奖励函数,具有更高的参数效率和更少的算法超参数和学习网络参数。
May, 2023
通过从代理行为的二进制反馈中学习到的动态感知奖励函数,我们展示了动态感知奖励函数如何使得偏好基础增强学习的采样效率提高一个数量级。通过迭代学习动态感知的状态-行动表示并从中引导基于偏好的奖励函数,我们实现了更快的策略学习和更好的最终策略性能。例如,在四足行走、行走者行走和猎豹奔跑中,在50个偏好标签的情况下,我们实现了与现有方法500个偏好标签相同的性能,并恢复了83%和66%的地面真实奖励策略性能,而它们分别只有38%和21%。这些性能提升证明了明确学习动态感知奖励模型的好处。
Feb, 2024