Apr, 2020

在线学习奖励函数的陷阱

TL;DR本文介绍了一种采用连续学习方法的逆向强化学习方法,旨在解决学习奖励函数与优化奖励函数通常是不同的过程,可能会导致一些问题,提出了 “不可操纵性” 和 “不可影响性” 两个理念,并证明了如果奖励函数的学习过程不可被操纵,那么就可以避免出现一些占优决策、删除学习过程和复习分已经知道的环境信息的情况。