模仿学习方法的差异最小化视角
通过交互式学习和无悔在线学习的分析方法,本文扩展了现有结果,发展了利用成本信息的交互式模仿学习方法,并将该技术扩展到应对强化学习,提供了对在线近似策略迭代成功的理论支持,建议了一系列新的算法,并提供了对模仿学习和强化学习现有技术的统一视角。
Jun, 2014
提出了一种称作“软Q模仿学习”的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准Q学习或离线策略演员-评论家算法。
May, 2019
本文提出了一种使用多模演示的模仿学习方法,针对现有方法中插值错误的问题,采用与专家状态-行动分布的正向KL散度相对应的反向KL散度,即I-projection,作为不同f-散度估计和最小化的框架,并得出了比GAIL和行为克隆更加可靠的多模行为近似I-projection方法。
May, 2019
本文提出了一种基于f-divergence的算法f-IRL,通过学习奖励函数来匹配专家状态分布以优化控制任务的样本效率和行为迁移能力,并在各种IRL基准测试中超越了对手仿真学习方法。
Nov, 2020
本研究通过对演示者专业技能的无监督学习,开发了一种可同时学习演示者政策和专业技能水平的联合模型,并通过过滤每种演示者的次优行为,训练出可以优于任何演示者的单一策略,并可用于估计任意状态下演示者的专业技能,在Robomimic等实际机器人控制任务以及MiniGrid和棋类等离散环境中取得了比其他方法更好的表现。
Feb, 2022
该研究论文旨在通过对强化学习, 凸优化和无偏学习方法进行研究, 提出了一种新方法,即对偶RL方法,可以用于从离线偏置数据中进行无偏学习。
Feb, 2023
本文提出了一种针对少量优秀数据和大量劣质数据的离线模仿学习问题的解决方案,并且采用了一种松弛的 f-分布来对策略的支持进行规范化,结果表明在六个标准连续控制环境中,相较于最优先的离线模仿学习方法,本文提出的 RelaxDICE 平均性能提升了30%以上。
Mar, 2023
本文提出了一种混合的模仿学习方法,将行为克隆和逆向加权分别作为策略和奖励模型,结合软强化学习框架下的无限制行为克隆技术和正则化方法,以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活,具有稳定的学习和最小化的超参数调整。
May, 2023
使用不完美和异构演示在模仿学习中存在相当大的挑战,本文介绍了一种名为IRLEED的新框架,通过估计演示者的专业水准,克服了现有逆强化学习算法中对不完善演示的缺陷,并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明,IRLEED具有适应性和有效性,成为从不完善演示中学习的通用解决方案。
Feb, 2024