ICLRJan, 2022

奖励错误规划的影响:映射和缓解不匹配的模型

TL;DR此研究探讨了 RL 代理程序如何利用奖励错误来获取更高的代理奖励和更低的真实奖励,并发现了能力阈值、偏差检测任务和基线探测器可以提高监测 ML 系统的安全性。