基于状态边际匹配的逆强化学习
本论文介绍了一种基于状态观测的逆强化学习算法 IL-flOw,其将奖励建模与策略学习解耦,并利用深度密度估计方法生成奖励信号,避免了对抗训练方法的不稳定性问题。通过使用状态转移概率密度作为正向强化学习的奖励信号,实验结果展示了在大规模机器人控制任务上的优秀表现。
May, 2022
提出了一种基于 Fokker-Planck(FP)方程的新型物理意识逆强化学习算法 FP-IRL,可以同时推断转移和奖励函数,无需事先估计转移动态,适用于转移函数不可访问的情况
Jun, 2023
逆强化学习(IRL)是学习奖励函数的问题,该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果,包括离线和在线设置,使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法,我们分别设计了离线和在线设置的 IRL 算法,并建立了样本复杂度的下界,表明 RLP 和 RLE 算法是近乎最优的。此外,我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。
Nov, 2023
本文提出了一种基于梯度的逆强化学习方法,同时估计系统动态,以后解决由生成策略引起的演示偏差,有效提高了样本利用率并准确估计奖励和转移模型,该方法在合成 MDP 和转移学习任务上都得到了改进。
Apr, 2016
本文提出了一种基于分歧最小化的 Imitation Learning 方法,即 $f$-MAX,将 IRL 方法如 GAIL 和 AIRL 联系起来并揭示了它们的算法特性,通过期望最大化演算法来教授机器人在推手环境中进行多样化的行为。
Nov, 2019
逆向强化学习是一种从专家示范中学习奖励函数的模仿学习方法,通过使用线性组合特征表示奖励,借助多项式基函数形成特征候选集来解决连续状态空间中特征选择的问题,并利用轨迹概率与特征期望之间的关联对特征进行选择,实验表明该方法能够恢复捕获专家策略的奖励函数,适用于越来越复杂的非线性控制任务。
Mar, 2024
本研究探讨了 IRL 是否能从金融随机环境(LOB)中的代理中推断出奖励,并使用先前的线性和高斯过程回归器以及自己的方法通过贝叶斯神经网络(BNN)来模拟其潜在奖励函数,说明非线性奖励函数产生的复杂行为可以通过推断来推断。
Jun, 2019
逆向强化学习通过学习专家轨迹的奖励函数,理解模仿或协作任务,从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL),通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度,同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略,该方法在几个已知领域上优于现有的逆向强化学习算法。
Nov, 2023
通过更好地利用专家演示,我们提出了两种简单的方法,即将专家演示数据放入内部强化学习算法的重放缓冲区中以直接通知学习器高奖励状态,以及在 Q 值引导中使用专家操作以改善目标 Q 值估计并更准确地描述高价值专家状态。在 MuJoCo 任务套件中,我们的方法相对于 MaxEntIRL 基准在 HalfCheetah-v2 上将恢复速度提高 2.13 倍,在 Ant-v2 上提高 2.6 倍,在 Hopper-v2 上提高 18 倍,在 Walker2d-v2 上提高 3.36 倍。
Feb, 2024
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程(MDP)样本能够恢复一个 ε- 最优奖励。此外,我们证明在 O (1/ε^4) 个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。
Mar, 2024