Mar, 2023

LS-IQ: 隐式奖励正则化的逆强化学习

TL;DR本文研究了使用正则化的隐式奖励函数来解决穿透状态和不稳定性问题,提出了一种新的方法,即最小二乘逆 Q 学习方法 (LS-IQ),在关键领域取得了最好的性能,特别是在存在穿透状态的环境中。并且我们提出使用逆动力学模型来仅仅通过观察就开始学习。