提出了一种名为模仿学习(ItorL)的新主题,旨在基于非常有限的专家示范实现即时重构模仿策略,用于不同的未知任务,无需任何额外的调整。通过将模仿学习集成到强化学习范式中,设计了 Demo-Attention Actor-Critic(DAAC)来解决 ItorL 问题,并为模仿者策略设计了一种基于示范的注意力架构,可以通过自适应追踪示范中的适当状态有效地输出模仿动作。在新的导航基准和机器人环境中,展示出 DAAC 在已知和未知任务上均比之前的模仿方法有着显著的优势。
Oct, 2023
使用因果不变性作为对抗训练模型的正则化原则,以缓解模型吸收专家数据中的虚假相关性,并在二维示例环境和高维机器人运动基准任务中展示了正则化公式的有效性。
Aug, 2023
我们提出了一种新颖的鲁棒模仿学习方法,通过发展逆动力学状态表示学习目标来对齐专家环境和学习环境,通过设计有效的奖励函数来度量行为数据和专家数据之间的相似性,从而在各种视觉扰动和视觉控制任务中实现近乎专家的性能,并显著优于当前最先进的视觉模仿学习方法和鲁棒模仿学习方法。
通过利用演示数据分布发现领域泛化策略的因果特征,我们设计了一个名为 DIGIC 的新框架,通过因果发现从演示数据分布中找到专家行为的直接原因,实现了只使用单一域数据进行领域泛化模仿学习,并且在底层因果模型的非结构化假设下作为跨域变化方法的补充,我们在各种控制任务中进行的实证研究表明,所提出的框架显著提高了领域泛化性能,并且与原始域中的专家具有可比较的性能。
Feb, 2024
该研究提出了一种方法,使用多个训练环境来生成不同干预的多个环境,并评估了基于模拟数据的不受监督的学习问题的 ICP 性能,最后与 ICP 相结合提出了改进的方法,提高了在具有多个协变量的数据集中进行因果发现的性能。
Apr, 2023
介绍了一种动态感知的逆强化学习方法 ——IQ-Learn,它通过学习单个 Q 函数来避免对抗性训练,并可在标准测试中取得最好的结果,比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。
Jun, 2021
研究表明在模仿学习中,学者提出了一个非参数图形标准来确定模仿的可行性,并建立了一个有效的程序来从专家轨迹中学习模仿策略。
Aug, 2022
在仿真学习中,我们通过整合奖励模型集合以及使用演化策略方法 EvIL 来提高重新训练和迁移性能,同时加速目标环境中的重新训练,在连续控制任务中比之前的工作更加高效地重新训练策略。
Jun, 2024
通过 Policy Contrastive Imitation Learning (PCIL) 方法,我们解决了 Adversarial Imitation Learning (AIL) 中低质量的 AIL 鉴别器表示所带来的问题,并成功地生成了一种更具意义的对比奖励,从而在模仿学习中实现了最新的性能。
Jul, 2023
利用行为克隆将策略学习简化为监督学习,但忽略因果关系可能导致因果误识问题,可通过相应的干预(环境交互或专家查询)确定正确的因果模型来解决。研究表明,该问题在多个领域中都存在,例如控制问题和驾驶问题,并经过了与 DAgger 等基线和消融进行验证。
May, 2019