从次优演示中学习稀疏奖励任务

Apr, 2020

Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations

Zhuangdi Zhu, Kaixiang Lin, Bo Dai, Jiayu Zhou

TL;DR本文提出了自适应模仿学习（SAIL）算法，该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务，并显著提高了样本效率和最终性能。

Abstract

Model-free deep reinforcement learning (RL) has demonstrated its superiority on many complex sequential decision-making problems. However, heavy dependence on dense rewards and high sample-complexity impedes the wide adoption of these methods in real-world scenarios. On the other hand,

deep reinforcement learning imitation learning self-adaptive imitation learning sub-optimal demonstrations sample-efficiency

发现论文，激发创造

自我模仿优势学习

该论文提出了一种新的基于 Bellman 最优算子的自我模仿学习方法，可以在离线强化学习中应用于 hard exploration games，以提高性能。

Dec, 2020

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

基于策略的样本高效观测模仿学习

本文提出了 SEILO，这是一种新颖的 ILO 的样本有效的 on-policy 算法，结合了标准的对抗性模仿学习和逆动力学建模，通过此方法能够使智能体从对手过程和行为克隆损失中接收反馈，我们实证表明，相比于其他现有的 on-policy ILO 和 ILD 方法，我们所提出的算法需要更少的与环境的交互才能实现专家绩效。

Jun, 2023

通过估计演示者的专业知识进行逆强化学习

使用不完美和异构演示在模仿学习中存在相当大的挑战，本文介绍了一种名为 IRLEED 的新框架，通过估计演示者的专业水准，克服了现有逆强化学习算法中对不完善演示的缺陷，并结合最大熵逆强化学习框架从多样的不完善演示中高效地得出最优策略。通过在线和离线模仿学习设置以及模拟和人工生成的数据进行的实验表明，IRLEED 具有适应性和有效性，成为从不完善演示中学习的通用解决方案。

Feb, 2024

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019

基于聚合数据的对抗性模仿学习

通过使用聚合数据上的对抗性模仿学习，我们提出了一种名为 Adversarial Imitation Learning on Aggregated Data (AILAD) 的动态自适应方法，可以同时学习非线性奖励函数和相关的最优策略，并且生成多样化的行为来匹配专家数据的分布。

Nov, 2023

基于演示引导的强化学习与学得技能

本文提出了一种基于示教引导的强化学习方法，该方法通过提取任务中共享的子任务结构，从而显著提高学习效率，并且在迷宫导航和复杂机器人操纵任务上进行了验证。

Jul, 2021