LS-IQ: 隐式奖励正则化的逆强化学习

Mar, 2023

LS-IQ: 隐式奖励正则化的逆强化学习

LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning

Firas Al-Hafez, Davide Tateo, Oleg Arenz, Guoping Zhao, Jan Peters

TL;DR本文研究了使用正则化的隐式奖励函数来解决穿透状态和不稳定性问题，提出了一种新的方法，即最小二乘逆 Q 学习方法 (LS-IQ)，在关键领域取得了最好的性能，特别是在存在穿透状态的环境中。并且我们提出使用逆动力学模型来仅仅通过观察就开始学习。

Abstract

Recent methods for imitation learning directly learn a $Q$-function using an implicit reward formulation rather than an explicit reward function. However, these methods generally require implicit reward regularization

imitation learning $q$-function implicit reward regularization squared norm regularization absorbing states

发现论文，激发创造

IQ-Learn: 逆软 Q 学习用于模仿

介绍了一种动态感知的逆强化学习方法 ——IQ-Learn，它通过学习单个 Q 函数来避免对抗性训练，并可在标准测试中取得最好的结果，比现有方法在所需的环境交互数量和高维空间可扩展性方面表现优异。

Jun, 2021

SQIL: 通过稀疏奖励加强学习实现的模仿学习

提出了一种称作 “软 Q 模仿学习” 的新方法，该方法使用强化学习，但不需要学习奖励函数，而是通过鼓励智能体在遇到不在分布中的状态时返回演示状态来激励智能体进行长视野模仿。在图像和低维度任务方面表现优于基于行为克隆和生成对抗模仿学习（GAIL）的方法，可用于标准 Q 学习或离线策略演员 - 评论家算法。

May, 2019

外部奖励的软 Q 模仿学习和判别器

利用鉴别器的软 Q 模仿学习算法（DSQIL）结合通过对抗逆强化学习的奖励函数，对小规模样本数据进行高效、鲁棒的模仿学习与训练。

Jan, 2024

无 OOD 动作的离线强化学习：通过隐含价值规范进行样本内学习

本论文针对离线强化学习中，在分布转变时计算 Q 值的问题，提出了基于量化回归的 IQL 策略，结合隐含值规范化框架提出了 SQL 和 EQL 算法，实验结果验证了算法的有效性和鲁棒性。

Mar, 2023

反向软 Q 学习用于离线模仿与次优示范

离线模仿学习主要通过有限的专家演示和较大的次优演示来提出一种基于反向软 Q 学习的新方法，通过添加正则化项来对齐学习得到的回报函数，从而有效解决离线模仿学习中的过拟合问题和训练向次优策略靠拢的问题。该方法在标准基准测试中明显优于其他离线模仿学习方法。

Feb, 2024

深度反向 Q 学习与约束

提出了一种新的算法类，仅需要解决一次 MDP 就能恢复专家策略，在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数，可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。

Aug, 2020

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

基于隐式 Q 学习的离线强化学习

提出了一种名为 Implicit Q-learning (IQL) 的离线强化学习方法，通过将状态价值函数视为随机变量，利用泛化能力估计在给定状态下最佳可用行为的价值，实现了在不直接查询 Q 函数的情况下改进策略。该方法在离线强化学习标准基准 D4RL 上表现出了最先进的性能。

Oct, 2021

逆强化学习的新型变分下界

逆向强化学习通过学习专家轨迹的奖励函数，理解模仿或协作任务，从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL)，通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度，同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略，该方法在几个已知领域上优于现有的逆向强化学习算法。

Nov, 2023