Jan, 2024

Imperio: 通过语言指导的后门攻击实现任意模型控制

TL;DR这篇论文通过使用语言理解能力提升后门攻击对抗技术,控制受害模型并产生期望输出,有效且具弹性地攻击复杂数据集。