Wasserstein逆强化学习在多目标优化中的仿真证明

May, 2023

Wasserstein逆强化学习在多目标优化中的仿真证明

A proof of imitation of Wasserstein inverse reinforcement learning for multi-objective optimization

Akira Kitaoka, Riki Eto

TL;DR本文证明了Wasserstein反向强化学习可以在有限次迭代中实现学习者的奖励值模仿专家的奖励值，同时可在多目标优化中，实现学习者的最优解的字典序问题模仿专家的最优解。

Abstract

We prove wasserstein inverse reinforcement learning enables the learner's reward values to imitate the expert's reward values in a finite

发现论文，激发创造

具有局部最优示例的连续逆优化控制

本文介绍了一种适用于大规模连续任务的概率反向最优控制算法，通过使用奖励函数的局部估计值，该方法可以学习来自非全局最优演示的例子，并消除全局最优的假设。

Jun, 2012

指导策略优化的行为评分学习

通过使用Wasserstein距离在新定义的潜在行为空间中比较强化学习策略，我们引入了一种新方法，展示了通过使用Wasserstein距离的二元制定，可以学习策略行为的得分函数，用于引导/远离所需/不需要的行为，并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。

Jun, 2019

Wasserstein对抗性模仿学习

本文研究Imitation Learning，结合Optimal Transport提出Wasserstein Adversarial Imitation Learning来更高效地解决inverse reinforcement learning中reward function问题。在机器人实验中，该方法只需一个expert demonstration即可实现显著提升。

Jun, 2019

原始Wasserstein模仿学习

本文提出了一种新的基于Primal Wasserstein Imitation Learning（PWIL）算法的Imitation Learning method，通过离线推导奖励函数，在MuJoCo领域的多个连续控制任务中实现了高效的样本复原，并且匹配的是Wasserstein距离，而非常用的性能代理。

Jun, 2020

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

最大化Wasserstein距离的内在控制

本文提出了一种通过最大化状态访问的Wasserstein距离学习最大化技能的代理奖励的方法, 这种方法比基于多样性的目标导向策略在MDP中的覆盖范围更广，并在各种Atari环境中验证了结果。

Oct, 2021

多目标优化的逆强化学习收敛证明

对于多目标优化问题，我们用射影次梯度方法展示了Wasserstein逆强化学习（WIRL）的收敛性，通过将优化问题的逆问题形式化为等价于多目标优化的WIRL。此外，我们证明了逆强化学习（最大熵逆强化学习，引导成本学习）在使用射影次梯度方法解决多目标优化时的收敛性。

May, 2023

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024

无模型熵正则化逆强化学习算法的收敛性

给定一个专家示范数据集，逆向强化学习（IRL）旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的IRL问题。我们采用随机梯度下降算法更新奖励，并采用随机软策略迭代算法更新策略，假设可以访问一个生成模型，我们证明了我们的算法使用O(1/ε^2)个马尔可夫决策过程（MDP）样本能够恢复一个ε-最优奖励。此外，我们证明在O(1/ε^4)个样本情况下，所恢复的奖励对应的最优策略与专家策略在总变差距离上接近ε。

Mar, 2024

多样专家策略生成的帕累托逆强化学习

本研究解决了现有数据驱动的强化学习和模仿学习方法在面对有限专家数据集时无法学习帕累托最优策略的问题。本文提出了一种帕累托逆强化学习框架（ParIRL），通过对不同专家偏好的两个数据集的利用，从而生成适应多目标的政策集。实验结果表明，ParIRL在多个多目标控制任务中表现优异，有效逼近帕累托前沿，并在CARLA仿真中验证了其在自动驾驶领域的应用潜力。

Aug, 2024