多样专家策略生成的帕累托逆强化学习

Aug, 2024

多样专家策略生成的帕累托逆强化学习

Pareto Inverse Reinforcement Learning for Diverse Expert Policy Generation

Woo Kyung Kim, Minjong Yoo, Honguk Woo

TL;DR本研究解决了现有数据驱动的强化学习和模仿学习方法在面对有限专家数据集时无法学习帕累托最优策略的问题。本文提出了一种帕累托逆强化学习框架（ParIRL），通过对不同专家偏好的两个数据集的利用，从而生成适应多目标的政策集。实验结果表明，ParIRL在多个多目标控制任务中表现优异，有效逼近帕累托前沿，并在CARLA仿真中验证了其在自动驾驶领域的应用潜力。

Abstract

Data-driven offline reinforcement learning and Imitation Learning approaches have been gaining popularity in addressing sequential decision-making problems. Yet, these approaches rarely consider learning Pareto-optimal policies from a limited pool of expert datasets. This becomes parti

发现论文，激发创造

多目标强化学习和策略适应的广义算法

提出了一种基于广义Bellman方程的多目标强化学习算法，该算法可通过极少量的样本快速适应新任务并生成最优策略。

Aug, 2019

伴随明确策略评估的逆强化学习

本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法，发现了它们属于一类共同形式目标、策略和目标梯度的优化问题，探究了不同方法的适用场景和算法效率。

Mar, 2021

通过展示理解专业技能：一种离线逆向强化学习的最大似然框架

研究了离线逆向强化学习的问题，提出了一种基于双层优化的估计任务公式与新的算法框架来解决这个问题，并在MuJoCo中的连续控制任务以及D4RL基准测试中的不同数据集上，展示了算法胜过现有最先进的离线IRL和模仿学习基准测试大量的结果。

Feb, 2023

离线多目标强化学习扩展帕累托高效决策

本文提出了一种新的数据驱动离线MORL设置，介绍了专门针对离线设置的数据集D4MORL，提出了一种基于Pareto-Efficient Decision Agents算法的决策代理，这种代理在行为策略上表现十分接近，在适当的情况下提供了Pareto-front的良好近似，可以通过超体积和稀疏度度量来衡量。

Apr, 2023

逆向偏好学习：无奖励函数的基于偏好的强化学习

提出了一种名为Inverse Preference Learning（IPL）的新算法，用于从离线偏好数据中学习奖励函数，该算法使用Q函数来代替学习得到的奖励函数，具有更高的参数效率和更少的算法超参数和学习网络参数。

May, 2023

逆强化学习的课程子目标

本研究提出了一种基于课程子目标的反向强化学习框架，通过动态选择子目标来引导智能体的学习，在D4RL和自动驾驶基准测试中实现了优于现有方法的结果与更好的可解释性。

Jun, 2023

反向强化学习是否比标准强化学习更困难？

逆强化学习（IRL）是学习奖励函数的问题，该问题通过对专家策略的演示来开发理解和模仿人类行为等智能系统起着关键作用。本文提供了首批有效的IRL结果，包括离线和在线设置，使用多项式采样和运行时间等方面的效率。使用RLP和RLE算法，我们分别设计了离线和在线设置的IRL算法，并建立了样本复杂度的下界，表明RLP和RLE算法是近乎最优的。此外，我们还展示了学习的奖励函数在具有适当相似性假设的目标MDP上的转移能力。

Nov, 2023

具有次优专家的逆强化学习

给定一个包含多个次优专家行为的问题，我们将逆向强化学习（IRL）方法扩展到了这种情况，研究了与给定专家集兼容的奖励函数的理论性质，并分析了使用生成模型估计可行奖励集的统计复杂性，得到了一个具有极小极大最优性的均匀采样算法。

Jan, 2024

分而治之: 利用多目标强化学习可证明揭示帕累托前沿

多目标强化学习中的一个重要挑战是在不同偏好下获得达到最优性能的政策帕累托前沿，本文引入了迭代帕累托参考优化（IPRO），一种将寻找帕累托前沿的任务分解成一系列单目标问题的原则性算法，以此实现收敛性保证并在每一步给出到未发现帕累托最优解的距离上限，实证评估表明IPRO与需要额外领域知识的方法相当甚至优于其，通过利用问题特定的单目标求解器，本方法也在路径规划和优化等领域具有潜力。

Feb, 2024

混合逆强化学习

我们提出使用混合增强学习的方法来减少反向强化学习中不必要的探索，通过专家数据在训练过程中引导学习者，从而缩小小型逆强化学习问题的交互过程，取得了较好的策略表现。

Feb, 2024