自我模仿优势学习

Dec, 2020

Self-Imitation Advantage Learning

Johan Ferret, Olivier Pietquin, Matthieu Geist

TL;DR该论文提出了一种新的基于 Bellman 最优算子的自我模仿学习方法，可以在离线强化学习中应用于 hard exploration games，以提高性能。

Abstract

self-imitation learning is a reinforcement learning (RL) method that encourages actions whose returns were higher than expected, which helps in hard exploration and sparse reward problems. It was shown to improve

self-imitation learning reinforcement learning off-policy rl bellman optimality operator hard exploration games

发现论文，激发创造

从次优演示中学习稀疏奖励任务

本文提出了自适应模仿学习（SAIL）算法，该算法利用了有限数量的次优演示来实现高度挑战性的稀疏奖励任务，并显著提高了样本效率和最终性能。

Apr, 2020

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

自我模仿学习

本论文提出了一种名为自我模仿学习的算法，该算法为离线策略演员 - 评论家算法，旨在验证过去的好经验可以间接驱动深度探索的假说，并在多个 Atari 游戏和 MuJoCo 任务中展现了显著的改进。

Jun, 2018

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

基于优势干预的安全强化学习

提出了一个新的算法 SAILR，该算法使用基于优势函数的干预机制在训练期间保持代理的安全，并使用为无约束 MDP 设计的现成强化学习算法来优化代理的策略。在使用实验证明了该算法在训练和部署期间都具有较强的安全性和良好的策略表现。

Jun, 2021

外部奖励的软 Q 模仿学习和判别器

利用鉴别器的软 Q 模仿学习算法（DSQIL）结合通过对抗逆强化学习的奖励函数，对小规模样本数据进行高效、鲁棒的模仿学习与训练。

Jan, 2024

生成对抗模仿学习的计算与泛化

本文探讨基于生成式对抗性模型的模仿学习算法（Generative Adversarial Imitation Learning，GAIL）的理论性质，证明了对于一般的回报参数化形式，只要正确控制奖励函数的类别，就可以保证泛化效果，并且利用再生核函数对奖励进行参数化可以使用随机一阶优化算法高效解决，并具有次线性收敛性，这是关于奖励 / 策略函数逼近的统计和计算保证的第一篇研究。

Jan, 2020

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019

分治学习模仿

本文介绍了一种基于序列归纳偏置的，从专家轨迹的状态中模仿复杂机器人任务并实现优化的新算法，将复杂任务拆分成较小的技能，将技能训练为 (goal-conditioned policy)，以便能够逐个解决每个技能并连接技能以完成整个任务，同时证明了该方法经过了无须几个未经过训练的样例即可实现了非完整导航任务和复杂的仿真机器人操作任务。

Apr, 2022

模仿引导强化学习

利用有限的模仿数据进行自主性提升的开创性框架 —— 模仿引导强化学习（IBRL），在从像素学习的模拟中实现了 7 个具有挑战性的稀疏奖励连续控制任务的最新性能和样本效率，是 RLPD 方法的 6.4 倍成功率的新亮点。

Nov, 2023