机器人学习的高效监督:基于模仿、仿真和自适应的方法
本研究提出了一种基于视频预测、上下文转换和深度强化学习的“观察型模仿学习”方法,该方法消除了标准模仿学习对于完全相同环境的假设,并能够从一个演示者的视频中学习各种现实世界中的机器人技能,涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。
Jul, 2017
本文讨论了在学习策略时,监督者可能会变化的问题,并提出了一种从收敛监督者进行模仿学习并对其进行形式化。此外,作者将此框架与一类强化学习算法(DPI)相连,并在实验中使用最新的深度模型为监督者的方法在连续控制任务中获得了比深度强化学习基线更好的结果,并提供了多达80倍的策略评估加速。
Jul, 2019
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
通过模型学习和故障检测机制,该论文提出了一种基于互动模仿学习的机器人监控算法,能够实时监测任务执行过程中的失败,并预测可能发生的故障,从而提高任务可靠性。
Oct, 2023
利用少量人类示范,通过适应它们到新场景的方式,自动合成大规模且丰富的数据集,使机器人代理能够在长期视野和高精度任务中通过模仿学习取得良好的性能,比收集额外的人类示范更有效且经济。
Oct, 2023
本研究通过AdaDemo(自适应在线演示扩展)框架,在机器人学习中引入了新的演示数据集扩充方法,以提高多任务策略学习的效果,通过对22个任务的全面评估,展示了AdaDemo在改进策略性能、引导高质量演示数据集生成方面的能力,实现了数据的有效利用。
Apr, 2024
本研究解决了机器人基础模型预训练中数据选择的重要性问题,提出了一种新方法Re-Mix,通过分布稳健优化(DRO)来最大化各个下游领域的最差性能。实验结果表明,Re-Mix学习到的领域权重相比统一权重和人类选择的权重在性能上分别提升了38%和32%。
Aug, 2024
本研究解决了模仿学习中数据收集需大量人工监督的问题。我们提出了一种名为MILES的全自我监督的数据收集新方法,仅需单一演示和环境重置即可实现高效策略学习。MILES的关键发现是它在没有额外人类干预的情况下,显著优于现有的模仿学习方法,能有效执行复杂任务。
Oct, 2024