随机算法与 PAC 界限在连续空间逆向强化学习中的应用

May, 2024

随机算法与 PAC 界限在连续空间逆向强化学习中的应用

Randomized algorithms and PAC bounds for inverse reinforcement learning in continuous spaces

Angeliki Kamoutsi, Peter Schmitt-Förster, Tobias Sutter, Volkan Cevher, John Lygeros

TL;DR该研究探讨了具有连续状态和动作空间的离散时间贴现马尔可夫决策过程，并解决了从观察到的最优行为中推断成本函数的逆问题。研究首先考虑了完全掌握专家策略的情况，并通过使用职业度量、线性对偶和互补松弛条件来刻画逆问题的解集。为避免平凡解和不适当性，引入了自然线性标准化约束。这导致了一个无限维的线性可行性问题，并对其性质进行了深入分析。其次，采用线性函数逼近器和随机化方法，即场景方法和相关的概率可行性保证，为逆问题提供了 ε- 最优解。对于所需的近似精度，进一步讨论了样本复杂度。最后，针对只有有限一组专家示范和生成模型可供使用的更加现实的情况，给出了使用样本时产生的误差界限。

Abstract

This work studies discrete-time discounted markov decision processes with continuous state and action spaces and addresses the inverse problem of inferring a cost function from observed optimal behavior. We first

markov decision processes inverse problem occupation measures linear normalization constraint sample complexity

发现论文，激发创造

深度反向 Q 学习与约束

提出了一种新的算法类，仅需要解决一次 MDP 就能恢复专家策略，在 Continuous state-spaces 中使用函数逼近估算相应的行动 - 价值函数，可以有效替代 (深度) Max-Entropy 算法用于自主驾驶的学习。

Aug, 2020

未知环境下的概率逆向强化学习

我们考虑了在未知的随机马尔可夫环境或游戏中，从代理人的示范学习的问题。我们旨在估计代理人的偏好，以构建同一任务的改进策略。为了做到这一点，我们将已知 MDP 中逆强化学习的概率方法扩展到未知动态或对手的情况。我们通过导出演示者策略和效用的两个简化概率模型来实现这一点，为了易于处理，我们使用了最大后验估计而不是完整的贝叶斯推断。在先验分布相同的情况下，这结果是凸优化问题。我们发现所得到的算法与其他了解动态的逆强化学习方法相比具有很高的竞争力。

Aug, 2014

连续的状态 - 动作空间中的近连续时间强化学习

通过使用泊松时钟模型与连续时间，本研究旨在克服强化学习中离散时间与离散状态的局限性，并且提出了一个算法来应对连续时间下的学习和规划任务，其在近连续时间中实现了阶悔恨度为 $\tilde {\mathcal {O}}(\sqrt {T})$ 的性能。

Sep, 2023

高维状态空间中具有有限时间保证的马尔可夫决策过程的结构估计

本文提出了一种单步估计算法，用于处理高维状态空间，同时又不会降低奖励估计精度的问题。该算法通过随机梯度最大化似然函数，使每次策略改进都能够进行。研究表明，该算法可以达到平稳状态，同时在 MuJoCo 机器人控制问题和其转移设置中，相比其他逆向强化学习算法和模仿学习基准，该算法表现更好。

Oct, 2022

倒置强化学习的理论理解

本文中，我们介绍了使用生成模型的有限时间问题中逆强化学习（IRL）的可行奖赏估计问题，提出了关于可行奖赏集合的最小最大下界，并分析了平均复杂度。

Apr, 2023

具有局部最优示例的连续逆优化控制

本文介绍了一种适用于大规模连续任务的概率反向最优控制算法，通过使用奖励函数的局部估计值，该方法可以学习来自非全局最优演示的例子，并消除全局最优的假设。

Jun, 2012

逆强化学习的高效概率性能界限

本文提出了一种基于贝叶斯思想的采样方法，可用于确定在反向强化学习环境下实际高置信度策略性绩效界限，并演示如何利用该界限进行风险感知的策略选择和改进。

Jul, 2017

强化学习中的概率推理正确实施

强化学习中，通过马尔科夫决策过程的图形模型，以概率推理的方式对各状态 - 行为对的访问概率进行研究。本研究采用贝叶斯方法，严格处理了状态 - 行为优化的后验概率，并阐明了其在马尔科夫决策过程中的流动方式。通过引入变分贝叶斯近似方法，得到了一个可行的凸优化问题，建立的策略也能有效地进行探索。该方法称为 VAPOR，与汤普森抽样、K 学习和最大熵探索有着紧密的联系。通过一些实验，展示了深度强化学习版本 VAPOR 在性能上的优势。

Nov, 2023

随机线性规划以几乎线性（有时是亚线性）的运行时间解决折扣马尔科夫决策问题

提出一种新的随机线性规划算法，利用价值 - 策略对偶和二叉树数据结构，自适应地采样状态 - 动作 - 状态转移，并进行指数原始 - 对偶更新，从而以几乎线性的运行时间在最坏情况下找到一个 ε- 最优策略。当马尔可夫决策过程是遍历的并且以某些特殊的数据格式指定时，该算法使用线性的运行时间，在状态 - 动作对的总数中是次线性的，为解决随机动态规划问题提供了新的途径和复杂性基准。

Apr, 2017

泛状态和行为空间上的政策优化

本文将最近开发的策略镜像下降方法进行了实质性的推广以处理一般状态和行动空间下的强化学习（RL）问题，引入了新的方法将函数逼近与此方法相结合，从而完全不需要使用显式策略参数化。此外，还提出了一种新的政策对偶平均方法，其中可能可以应用更简单的函数逼近技术。在精确策略评估下，我们将这些方法应用于解决不同类别的 RL 问题，为这些方法的全局最优性或局部最优性建立线性收敛速度，探讨了逼近误差对这些方法在具有有限动作空间或连续动作空间的一般状态 RL 问题上的收敛的影响。据我们所知，这些算法框架的开发以及它们的收敛分析似乎是文献中新的。

Nov, 2022