Jan, 2024

PsySafe:多智能体系统安全的心理攻守与评估的综合框架

TL;DR多智能体系统结合大型语言模型 (LLMs) 展示了集体智能的显著能力,然而对于潜在的恶意使用所带来的安全问题的全面研究仍然有限。本研究基于智能体心理学提出了一个综合框架,着重于确定智能体黑暗人格特质可能导致的风险行为,设计缓解这些风险的防御策略,并从心理和行为的角度评估多智能体系统的安全性。我们的实验揭示了多智能体之间存在的集体危险行为、智能体在危险行为中的自我反思倾向以及智能体的心理评估与危险行为之间的相关性等有趣现象。预计我们的框架和观察结果将为进一步的多智能体系统安全研究提供有价值的见解。我们的数据和代码可在 https:/github.com/AI4Good24/PsySafe 公开获取。