Jan, 2024

多代理辩论对抗对抗攻击

TL;DR通过多代理辩论和嵌入式聚类,我们研究了现代语言模型在对抗性攻击和多代理环境下的表现,并发现多代理辩论可以减少模型的有害性,并改善对不同类型攻击主题的抵抗能力。