模仿过去的成功可能不是最优的选择

Jun, 2022

模仿过去的成功可能不是最优的选择

Imitating Past Successes can be Very Suboptimal

Benjamin Eysenbach, Soumith Udatha, Sergey Levine, Ruslan Salakhutdinov

TL;DR本文研究提出了基于结果条件的模仿学习方法与强化学习中的奖励最大化问题之间的关系，并证明了现有方法并不一定能够改善策略，但是通过一些简单的修改得到的方法可以保证策略的改进。

Abstract

Prior work has proposed a simple strategy for reinforcement learning (RL): label experience with the outcomes achieved in that experience, and then imitate the relabeled experience. These outcome-conditioned

reinforcement learning imitation learning outcome-conditioned q-values policy improvement

发现论文，激发创造

奖励条件下的策略

本篇论文旨在探讨利用非专家轨迹收集数据进行监督学习以实现行为策略的泛化，探讨了基于此原理进行的策略搜索的方法，并在标准基准测试中与多种强化学习方法进行了比较。

Dec, 2019

通过迭代监督学习学习实现目标

本文介绍了一种强化学习算法，利用模仿学习从零开始获得目标达成策略，而不需要专家演示或价值函数，并通过该算法在多个基准任务中达到了比现有强化学习算法更好的目标达成性能和鲁棒性。

Dec, 2019

任意经验的模仿：强化学习和模仿学习方法的双重统一

该研究论文旨在通过对强化学习，凸优化和无偏学习方法进行研究，提出了一种新方法，即对偶 RL 方法，可以用于从离线偏置数据中进行无偏学习。

Feb, 2023

基于递归分类的基于样例策略搜索替代奖励方法

本文介绍了一种强化学习的算法，可以更加方便地让用户指定任务，通过提供成功结果的示例来代替复杂且需要技术专业知识的奖励函数。该方法不需要中间奖励函数的学习，仅仅依靠转移和成功结果来学习价值函数，从而需要调整的超参数较少并且代码读起来更加简单易懂。实验结果表明，此方法优于先前学习显式奖励函数的方法。

Mar, 2021

突破极限：重塑强化学习中的奖励

强化学习中，选择好的奖励函数是一个重要且具有挑战性的问题。本文提出了一种使用最大奖励而不是累积奖励的算法，适用于确定性和随机环境，并将其与现有的强化学习算法相结合。在实验中，我们研究了该算法在两个目标达成环境中的性能，并证明了其相对于标准强化学习算法的优势。

Feb, 2024

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

连贯的软件仿真学习

本文提出了一种混合的模仿学习方法，将行为克隆和逆向加权分别作为策略和奖励模型，结合软强化学习框架下的无限制行为克隆技术和正则化方法，以克服使用诱导式奖励和通过对策略进行学习的方法时的一些困难。该方法简单灵活，具有稳定的学习和最小化的超参数调整。

May, 2023

第三人称模仿学习

本文提出了一种利用领域混淆技术进行无监督第三人称模仿学习的方法，证明了该方法在点质点领域、伸手领域和倒立摆等领域的第三人称模仿学习中取得成功。

Mar, 2017

在强化学习中模仿受成本约束的行为

通过拉格朗日方法、元梯度以及基于成本违规的交替梯度等多种方法，我们在考虑轨迹成本约束的情况下成功匹配了专家分布，并且在实证研究中证明了我们的元梯度方法具有最佳性能。

Mar, 2024

模仿优秀，避免恶劣：安全强化学习的增量方法

通过模仿学习和轨迹标记的方法，解决强化学习中的约束问题，并在实验中展示了其优越性能。

Dec, 2023