Aug, 2019

深度强化学习中的悬赏篡改问题及其解决方案: 因果影响图的视角

TL;DR本文讨论强化学习代理如何通过篡改奖励信号等路径达到其终身目标,并提出了防范奖励篡改的设计原则,得出了结果受因果影响图的启示。