多目标优化的逆强化学习收敛证明

May, 2023

多目标优化的逆强化学习收敛证明

A proof of convergence of inverse reinforcement learning for multi-objective optimization

Akira Kitaoka, Riki Eto

TL;DR对于多目标优化问题，我们用射影次梯度方法展示了 Wasserstein 逆强化学习（WIRL）的收敛性，通过将优化问题的逆问题形式化为等价于多目标优化的 WIRL。此外，我们证明了逆强化学习（最大熵逆强化学习，引导成本学习）在使用射影次梯度方法解决多目标优化时的收敛性。

Abstract

We show the convergence of wasserstein inverse reinforcement learning (WIRL) for multi-objective optimizations with the projective subgradient me

wasserstein inverse reinforcement learning multi-objective optimization projective subgradient method inverse problem convergence

发现论文，激发创造

Wasserstein 逆强化学习在多目标优化中的仿真证明

本文证明了 Wasserstein 反向强化学习可以在有限次迭代中实现学习者的奖励值模仿专家的奖励值，同时可在多目标优化中，实现学习者的最优解的字典序问题模仿专家的最优解。

May, 2023

使用扩散小波的多尺度逆强化学习

本研究提出了一个多尺度框架，用于解决连续时间 / 状态随机系统的逆强化学习问题。通过利用与其相关的马尔可夫链的扩散小波表示来对状态空间进行抽象，此框架可以有效地处理的大型（并且几何复杂）决策空间，同时提供更可解释的演示状态轨迹和逆强化学习策略的表征。此多尺度框架把问题分成全局和本地逆强化学习，其中全局逼近最优值函数是使用粗特征获得的，而本地细节是使用细小的局部特征来量化的。这篇论文给出了一个在复杂环境中的机器人路径控制的说明性数值示例，以验证所提出的方法。

Nov, 2016

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的 IRL 问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用 O (1/ε^2) 个马尔可夫决策过程（MDP）样本能够恢复一个 ε- 最优奖励。此外，我们证明在 O (1/ε^4) 个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近 ε。

Mar, 2024

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

Wasserstein 对抗性模仿学习

本文研究 Imitation Learning，结合 Optimal Transport 提出 Wasserstein Adversarial Imitation Learning 来更高效地解决 inverse reinforcement learning 中 reward function 问题。在机器人实验中，该方法只需一个 expert demonstration 即可实现显著提升。

Jun, 2019

基于深高斯过程的逆强化学习

该论文提出了一种基于深度高斯过程模型的新逆向强化学习方法，可在少量演示情况下学习复杂的奖励结构，并通过最大熵学习框架与状态特征空间相链接。通过自行开发的非标准变分近似框架，可进行特征空间的近似贝叶斯处理，并防止过度拟合。在该模型中同时进行表示和逆向强化学习性能优于现有技术。已在标准基准测试中进行实验验证（“物体世界”、“高速公路驾驶”）以及新的基准测试（“二进制世界”）。

Dec, 2015

Wasserstein 鲁棒性强化学习

该研究提出了一种名为 WR2L 的强化学习算法，它通过将 Wasserstein 约束和零阶优化方法结合起来解决了传统强化学习算法在现实世界应用中容易过拟合的问题，并在高维控制任务中得到了显著提升。

Jul, 2019

多任务最大熵逆强化学习

本文提出了在最大因果熵 IRL 框架中的多任务 IRL 的公式化，通过单次模仿学习可以解决单任务 IRL 算法需要数百个演示才能解决的网格环境中的问题，并在常见模拟机器人基准的多任务变体上评估这些 IRL 算法，发现了其严重的限制，并提出了进一步的工作建议。

May, 2018

最大熵深层逆强化学习

本文提出了一个利用神经网络的表征能力来近似复杂的非线性奖励函数以解决反向强化学习问题的一般框架，并展示了最大熵范例在 IRL 中的有效训练方法，具有与现有基准相当的性能，超过基于高度变化奖励结构的替代基准。同时，作者将基本架构扩展为包括更大的卷积以消除对预计算空间特征的依赖并运作在原始输入表示上。

Jul, 2015

具有约束恢复的逆强化学习

本文提出了基于最大熵原理的逆强化学习算法，用于推断约束非凸最优化问题的奖励函数和约束条件，并采用指数梯度下降算法解决约束问题。通过在网格世界环境中的实验验证了该算法的效力。

May, 2023