本研究提出了一种基于对抗训练的可扩展框架,用于实现基于跨领域演示的自主智能体学习任务的能力,通过学习映射来实现不同领域间的策略转移,解决了其他方法在许多领域方面存在的问题。
Sep, 2022
本文介绍了一种新的基于状态的模仿学习算法,借助最近的对抗模仿学习方法,通过将总体优化目标分解为两个子问题并迭代地解决这些子问题,解决了专家和模仿者 MDPs 之间的过渡动力学不匹配问题。作者还通过 OpenAI Gym 的 MuJoCo 运动任务构造了几个有趣的 Markov 决策过程,分析表明该算法在存在过渡动力学不匹配现象时特别有效,而基线 IL 方法则会导致性能下降。
Feb, 2020
介绍了一种领域自适应模仿学习(DAIL)问题的形式化表达,提出了一种两步方法:对齐和适应,通过无监督的 MDP 对齐算法(GAMA)执行对齐步骤并利用对应关系在不需要经过环境交互的情况下在不同领域中实现任务零次模仿。
Sep, 2019
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
Apr, 2022
在这篇论文中,我们考虑了具有视觉观测的领域自适应模仿学习,其中目标领域中的一个代理通过观察源领域中的专家示范来学习执行任务。我们提出了一种新的框架,通过双重特征提取和图像重构从输入观测中提取领域无关的行为特征,以克服视觉观察中跨领域模仿学习中的领域转移问题。实证结果表明,我们的方法优于先前的具有领域转移的视觉观察模仿学习算法。
Dec, 2023
提出了一种从观测中进行离线模仿的方法,并使用轨迹感知的加权行为克隆策略,提高了鲁棒性和效果。
Nov, 2023
介绍了一种名为 Disentangling Generative Adversarial Imitation Learning(DisentanGAIL)的新算法,可通过对抗学习来自动学习高维度任务表现观察的特征,从而成功进行模仿,同时忽略专家和代理之间的差异,此算法在包括平衡、操纵和运动任务在内的各种控制问题中都具有高效性和稳健性。
Mar, 2021
提出一种基于状态对齐的模仿学习方法,旨在训练模仿者尽可能地模仿专家演示中的状态序列,该方法将本地和全局的状态对齐结合到一个强化学习框架中,并通过一个规则化的策略更新目标来实现。该方法在标准模仿学习设置和专家和模仿者具有不同动力学模型的模仿学习设置中显示了其优越性。
Nov, 2019
通过学习一个多步效用函数来量化每个行动对智能体与专家的访问分布之间的差异,我们提出了 DILO (从观测中进行双重模仿学习) 算法,它可以利用任意次优数据学习模仿策略而不需要专家行动,从而有效地解决了高维观测问题,表现得更好。
Jun, 2024
通过使用奖励最大化目标,我们提出了一种高效算法 A2D,共同训练专家和智能体,以帮助智能体模仿一个安全的专家策略,从而优于模仿固定专家所学习的策略。
Dec, 2020