Apr, 2025
放大漏洞:基于LLM的多智能体辩论中的结构化监狱破解攻击
Amplified Vulnerabilities: Structured Jailbreak Attacks on LLM-based
Multi-Agent Debate
TL;DR本研究针对多智能体辩论(MAD)框架中存在的监狱破解攻击漏洞进行了系统性调查,揭示了其在复杂任务中的推理能力提升与安全性之间的矛盾。创新性地提出了一种结构化提示重写框架,通过叙事封装、角色驱动升级等方式,显著增加了MAD系统的脆弱性,攻击成功率达到80%以上,强调了在实际部署前需强化安全防护的紧迫性。