稳定的逆强化学习：控制 Lyapunov 景观的政策

May, 2024

稳定的逆强化学习：控制 Lyapunov 景观的政策

Stable Inverse Reinforcement Learning: Policies from Control Lyapunov Landscapes

Samuel Tesfazgi, Leonhard Sprandl, Armin Lederer, Sandra Hirche

TL;DR通过学习专家示范来灵活地编程自主系统以实现复杂行为，或者预测代理行为是一个强大的工具，特别是在协同控制环境中。我们提出了一种新颖的稳定性认证逆优化奖励学习法，通过将代价函数推断问题重新表述为从示范数据中学习控制李亚普诺夫函数。我们利用闭合形式表达式和相关控制策略，能够通过观察诱导动力学的吸引子景观有效地搜索李亚普诺夫函数的空间。通过使用最小二乘法构造逆优化李亚普诺夫函数，我们使用凸优化方法来解决问题。我们通过理论分析控制李亚普诺夫函数提供的最优性质，并利用模拟和真实数据来评估我们的方法。

Abstract

learning from expert demonstrations to flexibly program an autonomous system with →

learning expert demonstrations autonomous system complex behaviors inverse reinforcement learning

发现论文，激发创造

具有概率上下文变量的元反强化学习

研究表明通过使用深度潜在变量模型可以实现无监督学习来自不同但相关的任务演示数据的奖励函数，从而有效地解决逆强化学习中从少量演示推断奖励的问题，并在多个连续控制任务中展示了实验结果。

Sep, 2019

分解控制李亚普诺夫函数以实现高效强化学习

使用控制李雅普诺夫函数对强化学习进行奖励重塑并降低样本复杂性，通过分解控制李雅普诺夫函数计算提高了强化学习绩效，在多个示例中成功地在较少的真实数据量下降落四旋翼飞行器。

Mar, 2024

同时估计奖励与动态的逆强化学习

本文提出了一种基于梯度的逆强化学习方法，同时估计系统动态，以后解决由生成策略引起的演示偏差，有效提高了样本利用率并准确估计奖励和转移模型，该方法在合成 MDP 和转移学习任务上都得到了改进。

Apr, 2016

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的 IRL 结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用 RLP 和 RLE 算法，我们分别设计了离线和在线设置的 IRL 算法，并建立了样本复杂度的下界，表明 RLP 和 RLE 算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标 MDP 上的转移能力。

Nov, 2023

一个用于离线从人类示范和反馈中学习奖励的统一线性规划框架

这篇论文介绍了一个针对离线奖励学习的新型线性规划（LP）框架，通过基于观察到的人类演示和反馈来推断和塑造顺序决策问题的底层奖励函数，并在保持计算可行性和样本效率的同时，提供可证明的样本效率优化保证。

May, 2024

逆强化学习的新型变分下界

逆向强化学习通过学习专家轨迹的奖励函数，理解模仿或协作任务，从而消除手动奖励设计的需要。本文提出了一种新的变分下界的逆向强化学习方法 (VLB-IRL)，通过最大化下界相当于最小化近似分布和真实分布之间的逆 Kullback-Leibler 散度，同时学习奖励函数和根据所学奖励函数最大化下界来寻找到达专家级性能的策略，该方法在几个已知领域上优于现有的逆向强化学习算法。

Nov, 2023

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023

离线逆强化学习：新的解决方案概念和可证明高效算法

逆强化学习（IRL）的目标是从行为示范中恢复专家智能体的奖励函数。本文介绍了一种新的可行奖励集概念，捕捉了离线设置的机会和限制，并分析了其估计的复杂性。通过引入针对该设置固有困难的原始学习框架，我们提出了两种计算和统计高效的算法，IRLO 和 PIRLO，用于解决这个问题。

Feb, 2024