稀疏奖励的自我模仿强化学习中的排序和多样性增强泛化能力

Nov, 2023

稀疏奖励的自我模仿强化学习中的排序和多样性增强泛化能力

Enhanced Generalization through Prioritization and Diversity in Self-Imitation Reinforcement Learning over Procedural Environments with Sparse Rewards

PDF

Alain Andres, Daochen Zha, Javier Del Ser

TL;DR在自我模仿学习中，我们提出了定制的采样策略，通过优先选择不同类型的转换，并将优先级技术扩展到程序生成的环境中。我们还通过修改来解决因泛化要求和优先级技术引入的偏见对多样性的影响，实验结果显示我们的修改在 MiniGrid-MultiRoom-N12-S10 环境中达到了最新的最好表现。

Abstract

exploration poses a fundamental challenge in reinforcement learning (RL) with sparse rewards, limiting an agent's ability to learn optimal

reinforcement learning self-imitation learning exploration sparse rewards procedurally-generated environments

发现论文，激发创造

程序化生成环境下高效演示逆强化学习

通过有限集的初始种子和一些训练稳定的修改，我们提出了一种基于对抗性反向强化学习的技术，名为 DE-AIRL，该技术能够显著减少对专家演示的需求，并仍能够将回报函数外推到完全程序化域，我们在 MiniGrid 和 DeepCrawl 的两个程序化环境中展示了我们的技术的有效性。

Dec, 2020

学习自我模仿多样化策略

本文提出了一种基于自我模仿学习的深度强化学习算法，旨在优化在稀疏和情景化奖励设置下的 RL 算法的效率，并使用 Stein 变分策略梯度下降来解决自我模仿学习的局限性，并在连续控制 MuJoCo 运动任务的一个具有挑战性的变体上展示了其有效性。

May, 2018

从次优演示中学习稀疏奖励任务

本文提出了自适应模仿学习（SAIL）算法，该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务，并显著提高了样本效率和最终性能。

Apr, 2020

使用软自我生成指导学习多样化策略

通过使用多样的过去轨迹作为指导，而不是模仿它们，本文提出了一种方法，使得在线强化学习更快、更高效，即使这些轨迹是次优的或未获得高奖励；此外，引入了一种新的多样性度量来保持团队的多样性和调节探索。在离散和连续控制任务中评估了所提出的算法，与现有的强化学习方法相比，实验结果表明我们提出的算法在多样化探索和避免局部最优方面显著优于基准方法。

Feb, 2024

RIDE: 面向程序生成环境的奖励驱动探索

本文提出一种新的内在奖励方式，鼓励机器人采取能够导致其学习的状态表示发生显著变化的行动，这种方法在稀疏回报和面向过程环境中的探索中更加高效。

Feb, 2020

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

自我模仿学习中基于内在动机的探索改进方法研究

本文提出将内在动机与模仿学习相结合来优化探索行为，以解决在广泛应用的问题中由于奖励信号过于稀疏所带来的挑战，同时证明了在过程生成环境中，该方法可以取得优异的性能和更好的泛化能力，效率同等或更高。

Nov, 2022

利用离线数据加速程序生成环境下的强化学习

研究了强化学习中采用离线轨迹进行数据增强的方法，发现采用离线轨迹进行前置训练或同时进行在线强化学习和离线轨迹训练均能提高样本效率和收敛到最优策略，预训练只需要两条轨迹数据即可对最终学习结果产生较大影响。

Apr, 2023

用于单示范模仿学习的专家接近度作为替代奖励

单个示范模仿学习浅层奖励问题通过过渡判别基于 IL 方法得到缓解，在五个广泛采用的 MuJoCo 基准测试以及 “灵巧门” 环境中，该方法胜过现有的 IL 方法且达到专家级性能。

Feb, 2024

通过生成模型的内在奖励驱动的模仿学习

通过引入一种新的奖励学习模块，可通过生成模型生成内在奖励信号。我们的生成功能可以更好地执行前向状态转换和后向动作编码，提高模块在环境中的动力学建模能力，并为模仿代理提供了模仿者的内在意图和更好的探索能力。经验证明，我们的模型在多个 Atari 游戏中的表现优于现有的 IRL 方法，即使只有一次演示，性能也是演示的 5 倍。

Jun, 2020