Jun, 2024

视觉稳健对抗性模仿学习与对比学习

TL;DR我们提出了C-LAIfO,一种计算效率高的算法,设计用于从视频中进行模仿学习,即使在智能体和专家领域之间存在视觉不匹配。我们通过对具有视觉差异的专家视频的模仿问题进行分析,并提出了一种使用对比学习和数据增强进行稳健潜空间估计的解决方案。在提供了视觉稳健潜空间后,我们的算法完全在该空间内使用离策略对抗模仿学习进行模仿。我们进行了全面的消融研究以证明我们的设计选择,并在高维连续机器人任务上对C-LAIfO进行了测试。此外,我们演示了如何将C-LAIfO与其他奖励信号结合起来,以促进在一组具有稀疏奖励的挑战性手部操作任务中的学习。我们的实验表明,与基准方法相比,C-LAIfO的性能得到了提高,凸显了其有效性和多功能性。为了确保可重现性,我们提供了我们的代码的开放访问。