从观测中学习模仿最新进展
本文提出了一种基于生成对抗网络的从观察中模仿学习方法(GAIfO),它可以在没有行动信息的情况下直接从状态演示中学习,进行了两种不同设置的实验证明它在高维模拟环境中优于现有的直接从状态演示方法。
Jul, 2018
本文提出了基于视觉演示的学习控制策略的一种 IfO 算法,名为 BootIfOL,该算法旨在学习一种从智能体轨迹到目标轨迹的距离度量方式,通过对比学习训练出智能体控制策略,实验结果表明该算法可以在有限的演示轨迹上训练出有效的策略。
Feb, 2023
通过自动折扣调度的机制适应性地改变强化学习的折扣系数,我们提出了一种新颖的观察学习框架,使得代理能够在掌握较早行为之后再逐步转向后续行为,并通过在九个 Meta-World 任务上的实验证明该方法在所有任务中明显优于现有方法。
Oct, 2023
本文基于未来观察奖励模型,提出了一种新的依靠观察数据进行模仿学习的方法,可以在连续控制任务中表现出与人类专家相当的性能,同时在存在与任务无关的观察数据时表现出鲁棒性。
Jul, 2021
本研究提出了一种基于视频预测、上下文转换和深度强化学习的 “观察型模仿学习” 方法,该方法消除了标准模仿学习对于完全相同环境的假设,并能够从一个演示者的视频中学习各种现实世界中的机器人技能,涵盖扫地、铲杏仁、推物品等家庭琐事任务以及模拟中的许多其他任务。
Jul, 2017
通过模仿学习,我们能够快速理解一个新任务,通过演示,我们可以直接获得哪些动作需要执行以及它们的目标的知识。本文介绍了一种新的模仿学习方法,解决了机器人模仿人类所面临的视角变化和身体模式等挑战。我们的方法可以利用单个人类演示来抽象展示任务的信息,并利用该信息进行泛化和复制。我们通过两种最先进的方法进行了新的集成:扩散式动作分割模型用于抽象演示的时间信息,以及开放词汇对象检测器用于空间信息。此外,我们通过符号推理来改进抽象的信息,并利用逆向运动学创建行动计划,以使机器人能够模仿演示的动作。
Jan, 2024
实时观察下的模仿学习 (ILfO) 中,利用最优传输来生成奖励函数,通过状态轨迹的 Wasserstein 距离衡量学习者和专家之间的差异,无需学习模型或对抗学习,可以与任何强化学习算法集成,并适用于 ILfO,能在多个连续控制任务中超越现有方法,在单个专家轨迹无动作观测的情况下实现专家级性能。
Oct, 2023
本研究提出了基于行为克隆的观察学习技术,旨在通过自我监督方式获取经验并观察专家的技能表现来学习任务,并在多个不同的模拟领域展示了与现有技术相当的任务表现和更高的学习速度。
May, 2018
本文提出了一种利用中间策略来训练学习者的一种方法,该中间策略可以近似地执行专家的策略,以便用于不同环境下的模仿学习,并在 MuJoCo 运动任务中取得了良好的结果。
Apr, 2022