Tom Everitt, Ryan Carey, Eric Langlois, Pedro A Ortega, Shane Legg
TL;DR使用因果影响图的框架,提出了代理奖励分析的方法,建立了信息价值的标准并引入价值控制的新图形标准和两个新概念:响应激励和工具控制激励,为这两个新概念提供了完备的图形标准,最终通过例子说明这些结果如何帮助评估 AI 系统的安全性和公正性。
Abstract
We present a framework for analysing agent incentives using causal influence diagrams. We establish that a well-known criterion for value of information is complete. We propose a new graphical criterion for