Wasserstein逆强化学习在多目标优化中的仿真证明
本文介绍了一种适用于大规模连续任务的概率反向最优控制算法,通过使用奖励函数的局部估计值,该方法可以学习来自非全局最优演示的例子,并消除全局最优的假设。
Jun, 2012
通过使用Wasserstein距离在新定义的潜在行为空间中比较强化学习策略,我们引入了一种新方法,展示了通过使用Wasserstein距离的二元制定,可以学习策略行为的得分函数,用于引导/远离所需/不需要的行为,并将正则化项加入两个新的策略训练算法中。在一系列具有挑战性的环境中展示了比现有方法更好的表现。同时我们提供开源演示。
Jun, 2019
本文研究Imitation Learning,结合Optimal Transport提出Wasserstein Adversarial Imitation Learning来更高效地解决inverse reinforcement learning中reward function问题。在机器人实验中,该方法只需一个expert demonstration即可实现显著提升。
Jun, 2019
本文提出了一种新的基于Primal Wasserstein Imitation Learning(PWIL)算法的Imitation Learning method,通过离线推导奖励函数,在MuJoCo领域的多个连续控制任务中实现了高效的样本复原,并且匹配的是Wasserstein距离,而非常用的性能代理。
Jun, 2020
本文介绍了一种将机器学习和经济学中互相独立发展的求解逆强化学习问题的不同方法联系起来的方法,发现了它们属于一类共同形式目标、策略和目标梯度的优化问题,探究了不同方法的适用场景和算法效率。
Mar, 2021
本文提出了一种通过最大化状态访问的Wasserstein距离学习最大化技能的代理奖励的方法, 这种方法比基于多样性的目标导向策略在MDP中的覆盖范围更广, 并在各种Atari环境中验证了结果。
Oct, 2021
对于多目标优化问题,我们用射影次梯度方法展示了Wasserstein逆强化学习(WIRL)的收敛性,通过将优化问题的逆问题形式化为等价于多目标优化的WIRL。此外,我们证明了逆强化学习(最大熵逆强化学习,引导成本学习)在使用射影次梯度方法解决多目标优化时的收敛性。
May, 2023
给定一个专家示范数据集,逆向强化学习(IRL)旨在恢复一个专家所优化的奖励。本研究提出了一种无模型算法来解决熵正则化的IRL问题。我们采用随机梯度下降算法更新奖励,并采用随机软策略迭代算法更新策略,假设可以访问一个生成模型,我们证明了我们的算法使用O(1/ε^2)个马尔可夫决策过程(MDP)样本能够恢复一个ε-最优奖励。此外,我们证明在O(1/ε^4)个样本情况下,所恢复的奖励对应的最优策略与专家策略在总变差距离上接近ε。
Mar, 2024
本研究解决了现有数据驱动的强化学习和模仿学习方法在面对有限专家数据集时无法学习帕累托最优策略的问题。本文提出了一种帕累托逆强化学习框架(ParIRL),通过对不同专家偏好的两个数据集的利用,从而生成适应多目标的政策集。实验结果表明,ParIRL在多个多目标控制任务中表现优异,有效逼近帕累托前沿,并在CARLA仿真中验证了其在自动驾驶领域的应用潜力。
Aug, 2024