May, 2024

TrojanRAG: 大型语言模型中的检索增强生成可以成为后门驱动程序

TL;DR利用 Retrieval-Augmented Generation 进行联合后门攻击,针对大型语言模型(LLMs)的安全威胁进行探讨,通过构建精巧的目标上下文和触发器集合,通过对比学习优化多对后门快捷方式,从而限制触发条件以提高匹配率,并引入知识图谱进行结构化数据构建实现目标上下文的精确匹配,验证后门对 LLMs 的真实伤害以及上下文是否为越狱模型提供有利工具,实验证明 TrojanRAG 在正常查询中保持检索能力同时展示多样化的安全威胁。