BriefGPT.xyz
Ask
alpha
关键词
adversarial prompt content classification
搜索结果 - 1
多代理辩论对抗对抗攻击
通过多代理辩论和嵌入式聚类,我们研究了现代语言模型在对抗性攻击和多代理环境下的表现,并发现多代理辩论可以减少模型的有害性,并改善对不同类型攻击主题的抵抗能力。
PDF
6 months ago
Prev
Next