Jun, 2023

探测与缓解 AI 欺骗的实验

TL;DR如何检测和缓解欺骗性人工智能系统是安全可信的人工智能领域的一个开放问题。本文分析了两种缓解欺骗的算法:第一种基于路径特定目标框架,消除激励欺骗的路径;第二种基于护盾,即监控不安全策略并替换为安全参考策略。我们构建了两个简单的游戏,并进行了经验评估。发现这两种方法均能确保我们的代理不欺骗,但护盾倾向于实现更高的回报。