利用深度模型学习中间视觉表示的抽象能力来从少量的演示序列中快速推断知觉奖励函数,以便在真实世界环境中使用强化学习智能体执行任务。
Dec, 2016
本研究探讨了使用反强化学习将语言命令作为奖励函数的问题,并提出了一种将语言命令作为深度神经网络表示的奖励函数的学习算法,即语言条件奖励学习(LC-RL)。实验结果表明,与直接学习语言条件策略相比,使用LC-RL学习的奖励可以更好地在新任务和环境中进行迁移。
Feb, 2019
提出了一种简单的指示器奖励函数,以解决在连续状态空间中使用强化学习训练策略时无法基于高维观测指定奖励函数的挑战;并提出奖励平衡和奖励过滤两种方法,以进一步加速使用指示器奖励函数的模型的收敛速度,并展示了在无需知道地面实况的情况下从RGB-D图像中执行绳索操作等复杂任务的性能表现与使用地面实况的神谕方法的可比性。
May, 2019
本研究提出了一种基于强化学习的机器人学习系统,通过无需人工干预的自主学习,在真实世界环境下实现智能机器人的不断优化和提高。以灵巧操作为案例研究,探究了在无工具化监控和无手工奖励函数的情况下学习的挑战,并提出了简单、可扩展的解决方案,通过多次灵巧操作任务实验验证了该系统的高效性和优越性。
Apr, 2020
本文介绍了一种基于人类经验学习实现强化学习的方法,该方法利用了人类视频经验中丰富的视觉信息,结合机器人自身收集的数据,在学习视觉技能方面取得了比常规方法更好的效果。
Nov, 2020
该研究提出了一种使用神经网络编码奖励函数的方法,通过迭代训练,以鼓励更复杂的行为,实现在高维度机器人和像素级环境下的无监督学习,从而学习包括前空翻和单腿奔跑等丰富的技能。
Feb, 2022
提出MEDAL ++算法,利用少量的专家演示,在无需人工监督或监管的情况下,通过同时学习任务和任务的反向操作,自主地练习任务,从演示中推断出奖励函数,并从高维视觉输入端到端学习策略和奖励函数。在模拟和真实机器人实验中,MEDAL++都表现出了优秀的表现,证明其比基于视觉的现有方法更具数据效率且表现更优秀。
Mar, 2023
通过使用预训练和微调范式,我们引入RoboFuME系统,利用网络上的数据和模型,允许机器人在几乎没有人工干预的情况下学习新任务,并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器,在线进行微调并提供奖励信号,从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中,我们的方法表现出色。
Oct, 2023
利用视觉语言模型(VLMs)定义的密集奖励,增强了自主强化学习的采样效率,并能够在在线微调步骤中成功完成自然语言描述的真实世界操纵任务。
Jul, 2024
本研究解决了在现实世界中使用离线强化学习时,数据集需手动标注奖励标签的问题,尤其在难以确定真实状态时。我们提出一种新系统,通过使用视觉语言模型的偏好反馈自动生成奖励标签,并基于此学习策略。实验表明,该方法在复杂的机器人辅助穿衣任务中表现出色,并在仿真任务中明显优于现有基线方法。
Nov, 2024