Feb, 2024

PoisonedRAG:对大型语言模型的检索辅助生成进行的知识投毒攻击

TL;DR通过注入有毒文本到知识库中,攻击者可以使大型语言模型生成攻击者选择的目标问题的攻击者选择的目标答案。我们提出了两种解决方案来解决这个优化问题,分别从黑盒和白盒背景的角度出发,攻击成功率达到了 90%。我们还评估了最近提出的防御方法,结果显示它们对我们的攻击不足以进行有效防御,凸显出对新的防御方法的需求。