Oct, 2020

通过考虑未来任务来避免副作用

TL;DR设计奖励函数很困难。为了解决这个问题,该论文提出了一种算法以自动生成一种辅助奖励函数来惩罚副作用。辅助奖励函数可以激励代理完成未来的任务,而且如果代理在当前任务中造成副作用,则该奖励会降低。为了避免代理干扰其他代理的不可逆操作以减少未来任务的完成度,该论文引入了一个基准策略,并使用它来过滤默认情况下无法完成的未来任务。该方法不仅避免了代理的干扰,而且对于避免副作用比惩罚不可逆操作更为有效。