Nov, 2023

在野外安全地测试语言模型代理

TL;DR在野外安全自主性的先决条件是进行安全的测试。我们提出了一个基于互联网的安全自主智能体测试框架,通过上下文敏感的监视器对智能体的行为进行审计,强制实施严格的安全边界来阻止不安全的测试,并将可疑行为进行排名和记录以供人工审查。我们设计了一个灵活的基础安全监视器来监控现有LLM智能体,并使用对抗性模拟智能体来测试其识别和停止不安全情况的能力。然后,我们将安全监视器应用于AutoGPT的一系列现实世界测试中,识别了一些存在的限制和挑战,这些将是随着自主智能体的能力增强,创建安全的野外测试时将面临的问题。