XIRL: 跨具象反向强化学习
该研究提出了一种模型无关的深度强化学习方法,利用少量的演示数据来协助强化学习代理。作者将该方法应用于机器人操作任务并训练了端到端的视觉-动力学策略,直接从RGB相机输入到关节速度。实验结果表明,与仅使用强化学习或模仿学习训练代理的结果相比,作者的强化和模仿代理取得了显著的性能提高。此外,这些训练有素的策略在模拟到现实世界的零样本情况下也能获得初步的成功。
Feb, 2018
提出了一种解耦表示学习与行为学习的视觉模仿学习方法,使用标准的监督和自监督学习方法来学习视觉表示编码器,然后使用非参数局部加权回归来预测行为。实验结果表明,这种简单的解耦可以提高视觉模仿模型在离线演示数据集和实际机器人开门方面的性能。
Dec, 2021
本研究提出了一种基于对抗训练的可扩展框架,用于实现基于跨领域演示的自主智能体学习任务的能力,通过学习映射来实现不同领域间的策略转移,解决了其他方法在许多领域方面存在的问题。
Sep, 2022
该研究论文旨在通过对强化学习, 凸优化和无偏学习方法进行研究, 提出了一种新方法,即对偶RL方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
在这篇论文中,介绍了一种名为XSkill的模仿学习框架,通过从未标记的人类和机器人操纵视频中发现一种跨体现性表示,使用条件扩散策略将该表示转移到机器人行为,并通过组合学习到的技能完成由人类提示视频指定的未见任务,进而解决了直接从非结构化人类视频中提取可重用机器人操作技能的挑战。实验结果表明,XSkill的性能更好。
Jul, 2023
离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软Q学习的新方法,通过添加正则化项来对齐学习得到的回报函数,从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。
Feb, 2024
基于视频-语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在Meta-World任务中,通过在Open X-Embodiment数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用Meta-World上的具有挑战性任务推广设置的领域数据进一步证明,相比先前使用二元分类训练的语言条件奖励模型,静态图像或不利用视频数据中的时间信息,我们的方法实现了更高效的训练。
May, 2024
本研究解决了跨形态逆强化学习中从混合质量示范学习奖励函数的问题。我们提出通过人类反馈来改进表示学习和对齐的方法,以便更有效地进行跨形态学习。研究结果表明,不同的表示学习技术会导致奖励塑造行为的显著差异,而人类反馈在处理混合质量和混合形态的数据时至关重要。
Aug, 2024