Mar, 2024

大规模语言模型的自动且通用提示注入攻击

TL;DR自动梯度方法生成高效、通用的提示注入数据,彰显梯度测试的重要性,尤其是对于防御机制。