Jun, 2024

BadRAG:大型语言模型检测检索增强生成中的漏洞

TL;DR通过结合检索式方法和生成模型,提出了TrojRAG来识别检索部分(RAG数据库)的漏洞和攻击,并间接攻击生成部分(LLMs),通过中毒定制内容来实现检索后门和语义操纵,这些攻击可以包括RAG的拒绝服务攻击和以触发器为条件的生成LLMs的语义操纵。