融合模仿学习和强化学习以实现鲁棒的策略改进

Oct, 2023

融合模仿学习和强化学习以实现鲁棒的策略改进

Blending Imitation and Reinforcement Learning for Robust Policy Improvement

Xuefeng Liu, Takuma Yoneda, Rick L. Stevens, Matthew R. Walter, Yuxin Chen

TL;DR该研究通过融合强化学习和模仿学习的方法，利用自适应的策略选择和梯度优化算法，在稀疏奖励场景下有效提高样本效率，并在多个基准领域中展现出卓越的性能。

Abstract

While reinforcement learning (RL) has shown promising performance, its sample complexity continues to be a substantial hurdle, restricting its broader application across a variety of domains. imitation learning (

reinforcement learning imitation learning oracle queries robust active policy selection robust policy gradient

发现论文，激发创造

通过模仿和强化学习实现快速政策学习

本文探讨了一种新的多算法策略，即将多种不同的 RL 和 IL 算法统一到一个 mirror descent 框架下，并提出了名为 LOKI 的基于策略学习的策略，通过 IL 和 RL 的结合可以优于次优专家。

May, 2018

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023

基于模拟的强化学习在基于视觉的敏捷飞行中的引导

将强化学习和模仿学习有效性应用于基于视觉的自主无人机竞赛，通过直接处理视觉输入无需明确状态估计，我们提出了一种结合强化学习和模仿学习优势的新型训练框架，通过三个阶段的训练实现超越单独强化学习或模仿学习在仅使用视觉信息且无需明确状态估计的情况下驾驶四轴飞行器穿过赛道的优秀性能和鲁棒性。

Mar, 2024

将模仿学习和在线强化学习桥接：一篇乐观的故事

本研究提出了一种基于离线数据集的 RL 算法，结合了 RL 和模仿学习的 iRLSVI 算法，可显著减少后悔度。

Mar, 2023

基于经验规划与自我模仿学习的机器人运动规划的强化学习

本文提出了一种称为 SILP + 算法的自我模仿学习方法，将基于经验的规划有效地嵌入到学习架构中，从而缓解了机器人运动规划任务中的数据采集问题，并在复杂的运动规划任务中取得了更好的培训效率和更高稳定的成功率。

Jun, 2023

多个黑箱神谕的活跃政策改进

介绍了一类名为 MAPS 和 MAPS-SE 的策略改进算法，旨在通过多个次优专家的模仿学习来提高政策效果，并表现出比最先进的策略改进算法更高的样本效率优势。

Jun, 2023

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

一种面向离线强化学习的策略引导仿真方法

该研究提出了一种 Policy-guided Offline RL 算法，该算法在训练时将想法分解为指导策略和执行策略，并通过指导策略来指导执行策略以实现状态组合性。该算法在离线 RL 的标准基准 D4RL 上展示了最高效的性能，并可以通过改变指导策略来轻松适应新的任务。

Oct, 2022

基于集成的交互式模仿学习

我们研究了交互式模仿学习，其中学习者通过与演示专家的互动查询动作注释，旨在学习一种能够与专家表现竞争性能且使用尽可能少的注释的策略。我们提出了一种名为集成交互式模仿学习（EIIL）的算法框架，可实现此目标。从理论上讲，我们证明了 EIIL 的一个效率优于 oracle 版本能够保证尖锐的后悔，前提是可以访问某个对状态具有 “探索性” 分布的样本。经验上，EIIL 在连续控制任务中明显超过在线和离线模仿学习基准。我们的工作为使用模型集合进行交互式模仿学习的收益开辟了系统研究。

Dec, 2023

截断视野策略搜索：结合强化学习与模仿学习

研究围绕奖励塑造的概念，提出了将模仿学习和强化学习相结合的新思路，通过近似最优的代价预测器将其融合，形成 Truncated HORizon Policy Search (THOR) 方法，以搜索对于近似最优代价预测器的有限规划下实现最大总重构奖励的策略。实验证明了 THOR 可以在代价预测器不是全局最优的情况下取得比强化学习和模仿学习更好的表现。

May, 2018