本文介绍了一种新的算法,批量主动偏好学习,它使用尽可能少的数据样本进行有效的奖励函数学习,并具有较短的查询生成时间。我们为批量主动学习问题引入了几个近似,并为我们的算法的收敛提供了理论保证。通过在模拟中进行各种机器人任务的实验,我们的结果表明我们的批量主动学习算法仅需要少量计算时间短的查询。最后,我们将展示我们的算法在学习人类用户喜好的研究中的应用。
Oct, 2018
论文探讨了一个基于信息增益的方法来选择机器人询问人类专家的问题,该方法考虑了人类回答问题的能力,并优化了机器人和人类的不确定性之间的权衡以及问题的可重复性和成本控制,仿真实验和用户研究证明该方法不仅产生易于回答的问题,而且最终也导致更快的奖励学习。
Oct, 2019
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
本文介绍了一种人机交互的方法,使用对象为中心的子任务描述人类任务,并根据特定对象检查和更新模型中的权重,以实现机器人的快速且简单的策略自适应。
Mar, 2022
研究人机交互中智能机器人的学习奖励功能从而完成任务,探讨通过对多种机器人轨迹的比较反馈方式学习机器的奖励功能,包括两两比较、评分、最佳选择等,并提出主动学习技术,以优化从用户反馈中获得的期望信息,进而在自主驾驶模拟、家庭机器人、标准强化学习等领域展示了这种方法的适用性。
Oct, 2022
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在Meta-World中训练出具有更好效果的机器人策略模型。
Dec, 2022
本文提出了一种利用离线数据进行偏好学习的方法,通过基于池的主动学习生成偏好查询,学习奖励函数的分布,通过离线强化学习优化相应的策略,从而使代理人能够在未显示的离线数据中学习执行新任务。
Jan, 2023
提出了一种基于主动学习的RLHF方法,通过半数查询获得与最先进的DPO方法相当的性能。
Feb, 2024
通过批次主动的偏好学习方法,本研究开发了一组新的算法,能够有效学习奖励函数并在短时间内生成少量查询,实验结果表明该算法在机器人学习中的多种任务上表现良好。
优化查询方法在学习奖励函数上的表现优于信息增益方法。
Mar, 2024