基于观测和示例的离线模仿的简明解决方案:可能包含不完整轨迹
通过学习一个多步效用函数来量化每个行动对智能体与专家的访问分布之间的差异,我们提出了 DILO (从观测中进行双重模仿学习) 算法,它可以利用任意次优数据学习模仿策略而不需要专家行动,从而有效地解决了高维观测问题,表现得更好。
Jun, 2024
该论文探究了在缺乏专家行为数据的情况下,通过学习观察结果来模拟专家行为的问题,并提出了一种基于离线学习的算法 LobsDICE,该算法通过优化稳定分布来实现模仿专家策略,并在一系列在线学习任务中表现出色。
Feb, 2022
通过使用观察结果进行离线学习,我们提出一种新的方法称为 Primal Wasserstein DICE,通过最小化原始 Wasserstein 距离来改进分布校正估计,并在多个测试平台上进行实证评估。
Nov, 2023
本研究基于静态离线数据,提出了 MILO 框架及算法,用于高效解决无需在线交互式的模仿学习问题,其能够成功应对较弱行为准则下的状态行为的偏移问题,最终成功模仿高水平行为准则的动作。
Jun, 2021
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
Apr, 2022
本篇研究针对专家行为与训练代理之间的差异,提出了一种基于无配对无对齐的轨迹,以及循环一致性限制的框架,来学习对应关系以解决领域差异的问题,并通过实验证明了该方法的有效性。
May, 2021
离线仿真学习(IL)在实际领域中由于专家数据的稀缺性而受到越来越多的关注。本文介绍了一种简单而有效的数据选择方法,基于其结果状态识别积极行为,从而更好地利用动态信息并有效地提取专家行为和有益的多样行为。通过在复杂和高维离线 IL 基准测试中的实验评估,结果表明我们的方法达到了最先进的性能,在 20/21 个基准测试中超越了现有方法,通常是 2-5 倍,并且与行为克隆(BC)保持可比的运行时间。
May, 2024
通过从环境中观察专家,尽管没有明确的奖励或动作标签,但模仿智能体仍然可以学习所需行为。借助于最优传输距离的 AILOT 方法,在与数据中蕴含成对的空间距离的意图形式中对状态进行特殊表示,定义了内在奖励函数,改善了其他线下强化学习算法在稀疏奖励任务中的性能,并超过了 D4RL 基准的最新线下模仿学习算法。
Feb, 2024
GO-DICE 是一种离线模仿学习技术,用于处理长期目标驱动的顺序任务,通过从示例中分辨子任务的层次结构并分别学习子任务转换和动作执行策略,以实现长期推理。实验结果表明 GO-DICE 优于最近的对照方法,在越来越具有挑战性的 Mujoco 机器人任务的完成率方面有明显改善。此外,GO-DICE 还能够利用不完美的示例和部分任务分割来提高任务的性能。
Dec, 2023
本文提出了 SEILO,这是一种新颖的 ILO 的样本有效的 on-policy 算法,结合了标准的对抗性模仿学习和逆动力学建模,通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈,我们实证表明,相比于其他现有的 on-policy ILO 和 ILD 方法,我们所提出的算法需要更少的与环境的交互才能实现专家绩效。
Jun, 2023