Jul, 2024

人类可解释的、有情境背景的大型语言模型对抗性提示攻击

TL;DR本研究解决了大型语言模型(LLM)脆弱性测试中对无意义提示注入的关注不足,通过情境驱动的上下文重写将无意义后缀攻击转换为有意义的提示。研究发现,在许多LLM中,仅需一次尝试即可成功执行对抗性攻击,并且这些攻击在不同的LLM之间具有迁移性。