模仿引导强化学习
本文介绍了一种基于序列归纳偏置的,从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法,将复杂任务拆分成较小的技能,将技能训练为 (goal-conditioned policy),以便能够逐个解决每个技能并连接技能以完成整个任务,同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。
Apr, 2022
将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛,通过直接处理视觉输入无需明确状态估计,我们提出了一种结合强化学习和模仿学习优势的新型训练框架,通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。
Mar, 2024
该研究通过融合强化学习和模仿学习的方法,利用自适应的策略选择和梯度优化算法,在稀疏奖励场景下有效提高样本效率,并在多个基准领域中展现出卓越的性能。
Oct, 2023
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中,我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍,在 Ant-v2 上提高 2.6 倍,在 Hopper-v2 上提高 18 倍,在 Walker2d-v2 上提高 3.36 倍。
Feb, 2024
提出了一种称作 “软 Q 模仿学习” 的新方法,该方法使用强化学习,但不需要学习奖励函数,而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习(GAIL)的方法,可用于标准 Q 学习或离线策略演员 - 评论家算法。
May, 2019
本文提出了一种基于增强和干预的多任务学习框架 --ReIL,该框架旨在实现在无需过多监督和调整的情况下,在真实环境中训练代理。实验结果表明,相较于其他基于干预的方法,ReIL 使用任意奖励函数进行训练时无需使用额外启发式方法,能够在稀疏监督信号的情况下快速学习并保持性能。
Mar, 2022
本文提出了一种称为 SILP + 算法的自我模仿学习方法,将基于经验的规划有效地嵌入到学习架构中,从而缓解了机器人运动规划任务中的数据采集问题,并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。
Jun, 2023