交互自主学习偏好
该研究提出了一个利用无人干预的关节行动示范学习人类用户模型的框架,以便机器人能够计算出一项与人类的合作任务相适应的鲁棒策略。该框架利用无监督学习算法将示范动作序列聚集到不同的人类类型中,并使用逆强化学习算法学习代表每种类型的奖励函数。最后,该方法得到了验证,并在实验室中演示了同一个人类与小型工业机器人配合完成任务的可能性。
May, 2014
研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数,从而有效地解决逆强化学习中从少量演示推断奖励的问题,并在多个连续控制任务中展示了实验结果。
Sep, 2019
本文介绍了一种基于用户反馈的偏好学习方法,利用高斯过程(GP)对奖励函数进行建模,在不增加结构限制并避免数据不足和刚性的问题的情况下,仅通过比较轨迹即可有效学习机器人任务的表达性奖励函数。
May, 2020
本文提出了一种人与机器人交互的新方式,通过以人类指导机器人从高表达特征的状态到不表达该特征的状态的方法来学习机器人掌握的特征,然后将其集成到奖励函数中,大大降低了样本复杂度并提高了奖励的泛化性能。
Jun, 2020
本文提出了一种从用户收集多源数据的框架,该框架结合了演示和偏好查询以学习奖励函数,可用于机器人模型中,并且在移动操作器 Fetch 上执行的模拟实验和用户研究验证了我们的方法的优越性和可用性。
Jun, 2020
该研究通过使用未标注的人类操作视频来学习机器人操作策略的任务不可知奖励函数,并采用时间对比学习得到的嵌入空间中的距离以及直接时间回归来评分从而实现在各种任务上重复使用一个模型,从而能够在多个操纵任务上加速训练,而无需从机器人环境中获得先验数据,也无需使用特定于任务的人类演示数据。
Nov, 2022
使用多任务学习来实现基于人类反馈的强化学习,通过将偏好模型训练在以前的任务数据上,我们仅需要很少的查询就可以在Meta-World中训练出具有更好效果的机器人策略模型。
Dec, 2022