Sep, 2024

用于AI控制的游戏:AI部署协议的安全评估模型

TL;DR本研究解决了不受信任的AI部署协议的安全性和有效性评估问题。我们提出了AI-Control Games,作为一种多目标、部分可观察的随机博弈的形式化决策模型,并发展了通过将其简化为一组零和部分可观察随机博弈来寻找最佳协议的方法。研究结果显示,我们的形式化方法在现有设置中显著提高了协议评估的效果,并为新设置中的协议评估提供了新的见解。