无模型模仿学习与策略优化
本文提出了一种新的梯度算法,用于从专家观察行为中学习策略,假设专家根据某种未知奖励函数行动最优,算法的目标是找到一个奖励函数使得最优策略与专家观察行为匹配良好,并且在两个人工数据集中表现更加可靠和高效。
Jun, 2012
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
提出了一种提取专家行为策略的新框架,直接从数据中提取策略,将模仿学习与生成对抗网络进行比拟,提出了无模型模仿学习算法,并证明该算法在模仿大型、高维度环境中的复杂行为时相对于现有无模型模仿学习方法具有明显性能提升。
Jun, 2016
本文介绍两种基于模型的算法,利用 Follow-the-Leader(FTL)规则来提高在线模仿学习系统的收敛速度,其中 MoBIL-VI 算法基于解决变分不等式,而 MoBIL-Prox 算法基于随机一阶更新,这两种方法都利用模型来预测未来的梯度,可以使该学习算法的样本利用率更高。
Jun, 2018
本文介绍了一种强化学习算法,利用模仿学习从零开始获得目标达成策略,而不需要专家演示或价值函数,并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。
Dec, 2019
针对确定性专家,本文使用固定奖励将模仿学习降为强化学习问题,并证实了可以恢复专家的奖励,并将模仿者与专家之间的总变化距离等同于对抗模仿学习,针对连续控制任务进行了实验确认降维的有效性。
Aug, 2021
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
本文旨在探究在不确定转移条件下对对手模仿学习策略的理论基础。我们提出一种算法MB-TAIL,它可以达到最小最大优化专家样本复杂度并改善了当前已知最佳算法OAL的交互复杂度。此外,我们通过将其扩展到函数逼近设置来展示MB-TAIL的泛化能力,并证明它可以实现独立于状态空间大小的专家样本和交互复杂度。
Jun, 2023
我们通过对专家演示进行政策学习来解决没有奖励函数的问题,并提出了将模仿学习视为微调问题的方法,通过在高维原始像素观测中在Franka Kitchen环境上取得了最新的最佳性能,只需要10个演示且没有奖励标签,同时解决了复杂的灵巧操作任务。
May, 2024