Feb, 2020

用逆强化学习改写历史:后见推断对政策改进的影响

TL;DR本文介绍了逆强化学习(inverse RL),采用逆强化学习方法来实现目标重标记技术(goal-relabeling techniques),并证实在多任务设置下,包括目标达成、具有离散奖励集合和线性奖励函数的领域中,使用逆强化学习加速了学习过程。