模仿引导强化学习

Nov, 2023

Imitation Bootstrapped Reinforcement Learning

Hengyuan Hu, Suvir Mirchandani, Dorsa Sadigh

TL;DR利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Abstract

Despite the considerable potential of reinforcement learning (RL), robotics control tasks predominantly rely on imitation learning (IL) owing to its better →

reinforcement learning imitation learning autonomous self-improvement sample efficiency bootstrapped reinforcement learning

发现论文，激发创造

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

基于模拟的强化学习在基于视觉的敏捷飞行中的引导

将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛，通过直接处理视觉输入无需明确状态估计，我们提出了一种结合强化学习和模仿学习优势的新型训练框架，通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。

Mar, 2024

从次优演示中学习稀疏奖励任务

本文提出了自适应模仿学习（SAIL）算法，该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务，并显著提高了样本效率和最终性能。

Apr, 2020

融合模仿学习和强化学习以实现鲁棒的策略改进

该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Oct, 2023

加速逆强化学习与专家引导

通过更好地利用专家演示，我们提出了两种简单的方法，即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态，以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中，我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍，在 Ant-v2 上提高 2.6 倍，在 Hopper-v2 上提高 18 倍，在 Walker2d-v2 上提高 3.36 倍。

Feb, 2024

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

ReIL: 基于强化干预的模仿学习框架

本文提出了一种基于增强和干预的多任务学习框架 --ReIL，该框架旨在实现在无需过多监督和调整的情况下，在真实环境中训练代理。实验结果表明，相较于其他基于干预的方法，ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法，能够在稀疏监督信号的情况下快速学习并保持性能。

Mar, 2022

将模仿学习和在线强化学习桥接：一篇乐观的故事

本研究提出了一种基于离线数据集的 RL 算法，结合了 RL 和模仿学习的 iRLSVI 算法，可显著减少后悔度。

Mar, 2023

基于经验规划与自我模仿学习的机器人运动规划的强化学习

本文提出了一种称为 SILP + 算法的自我模仿学习方法，将基于经验的规划有效地嵌入到学习架构中，从而缓解了机器人运动规划任务中的数据采集问题，并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。

Jun, 2023

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024