通过对 Adversarial Imitation Learning 的训练信号做出调整,可以通过减少 False Negatives 的数量,从而在 BabyAI 环境中提高模型的样本效率。
Feb, 2020
本研究提出了一种基于自监督表示学习的对抗性模仿学习方法,用于学习具有抗扭曲性和时间预测性的状态和动作表示,以提高样本效率,并在 MuJoCo 的 100 个专家状态 - 动作对设置中相对于现有方法表现出 39%的改进。
Mar, 2023
基于扩散过程的两步纯化方法,通过引入噪声消除了不完美展示中的潜在扰动,并从扩散后的数据中恢复出最优的专家展示,评估结果表明方法的有效性.
Oct, 2023
本文介绍了一种利用 offline dataset 和 behavioral cloning 来解决 offline imitation learning 问题的算法,该算法额外引入了一个鉴别器来区分专家和非专家数据,并将其输出作为 behavioural cloning 的损失权重,实验结果表明该算法可以提高回报率和训练速度。
Jul, 2022
该研究在大规模实验中研究了逾 50 个选择项,探讨其在区分高级算法选项和低级实现细节方面的影响,发现了一些惊人的结果,特别是以人类演示为基础的模拟场景可能会使模仿算法表现不佳。
Jun, 2021
本文提出了一种名为 AGAIL 的新算法,该算法借助不完整的演示动作序列,学习从状态到行为的映射,通过分离演示的状态和行动轨迹,并使用行动作为辅助信息来指导训练。实验结果表明,AGAIL 在基准任务上可以达到与现有最先进方法相当的性能水平。
May, 2019
通过使用聚合数据上的对抗性模仿学习,我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法,可以同时学习非线性奖励函数和相关的最优策略,并且生成多样化的行为来匹配专家数据的分布。
Nov, 2023
本文提出了一种新的适用于多智能体环境的 Multi-Agent 模仿学习框架,它建立在广义反向强化学习的基础上,并引入了实用的多智能体演员 - 评论家算法。该方法可用于多个合作或竞争代理的高维环境中模仿复杂的行为。
Jul, 2018
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在 Robomimic 等实际机器人控制任务以及 MiniGrid 和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
基于视觉观测的模仿学习的研究,在部分可观察环境中,引入了基于状态潜在转换分布的上界来分析学习代理的次优性,并提出了一种名为潜在对抗性观测模仿学的算法,在高维连续机器人任务中表现出与最先进的性能,同时提供显著的计算优势,并可以利用专家视频来提高从像素进行强化学习的效率。
Sep, 2023