Nov, 2020

学习如何利用成形奖励:一种新的奖励成形方法

TL;DR本文提出了一种自适应利用给定塑形奖励函数的算法,通过将塑形奖励作为一个双层优化问题来解决,从而实现了真实奖励的最大化,并基于这个问题,提出了三种基于不同假设的学习算法。实验结果表明,我们的算法可以充分利用有益的塑形奖励,同时忽略无益的塑形奖励或者甚至将它们转化为有益的。