Jul, 2024

基于LLM的多智能体社群中操控性知识的泛滥传播

TL;DR通过构建详细的威胁模型和真实环境模拟,本文提出了一种新的两阶段攻击方法,包括说服力注入和操纵性知识注入,系统地探索了操纵性知识(例如假设性和有毒的知识)在基于大规模语言模型的多主体系统中的传播潜力。通过广泛的实验,展示了攻击方法能够成功诱导基于大规模语言模型的智能体传播假设性和有毒的知识,并且这种操纵可以在互动结束后继续影响智能体,进一步揭示了基于大规模语言模型的多主体系统中存在的重大安全风险,强调了对抗操纵性知识传播的强大防御措施的迫切性。