ConfusedPilot：RAG基础大型语言模型中的混淆代理风险

Aug, 2024

ConfusedPilot：RAG基础大型语言模型中的混淆代理风险

ConfusedPilot: Confused Deputy Risks in RAG-based LLMs

Ayush RoyChowdhury, Mulong Luo, Prateek Sahu, Sarbartha Banerjee, Mohit Tiwari

TL;DR本研究探讨了RAG系统在企业应用中的安全性缺陷，提出了新的混淆代理攻击方式，导致输出的完整性与机密性受到威胁。研究表明，恶意文本嵌入和数据泄露的漏洞可能被利用，传播错误信息，从而影响企业的运营效率。作者针对当前RAG系统的架构，提出了强化安全性的设计指南。

Abstract

Retrieval augmented generation (RAG) is a process where a large language model (LLM) retrieves useful information from a database and then generates the responses. It is becoming popular in enterprise settings fo

发现论文，激发创造

检索增强生成（RAG）中隐私问题的探索

使用检索增强生成（RAG）技术可以增强具有专有和私有数据的语言模型，在这种情况下，数据隐私是关键问题。本研究对检索增强生成系统进行了广泛的实证研究，并提出新的攻击方法来揭示其对私有检索数据库的泄露漏洞。尽管RAG技术存在新的风险，但它可以减轻语言模型的训练数据泄露问题，为检索增强语言模型的隐私保护提供了新的见解，对语言模型和RAG系统构建者都具有益处。

Feb, 2024

遵循我的指示并透露机密：检索增强型生成系统的可伸缩数据提取

Retrieval-Augmented Generation (RAG)可以增强预训练模型，通过在测试时引入外部知识以实现定制化适应性。研究发现，Retrieval-In-Context RAG语言模型中存在数据存储泄露的风险，对于多种现代语言模型以及GPTs模型，攻击利用模型的指令跟随功能，通过提示注入轻松从数据存储库中提取文本数据。通过设计一种攻击方法，可以在25个随机选择的自定义GPTs模型上以100%的成功率导致数据存储泄露，并且通过自身生成的仅100个查询，从包含77,000字的书籍和1,569,000字的文集中从文本数据中提取文本数据的比率为41%和3%。

Feb, 2024

低级扰动模拟野外文档对 RAG 管道的遗传攻击

通过寻求大规模语言模型与检索生成的完美结合来解决其局限性，本论文研究了在评估检索生成鲁棒性时常被忽视的两个方面：对噪声文档的脆弱性和对检索生成系统的整体评估。同时，论文引入一种新的攻击方法——遗传攻击，用于揭示组成部分中的漏洞并测试系统对噪声文档的功能性。实验结果表明，遗传攻击在不同的数据库和语言模型上均能取得较高的攻击成功率，同时显著破坏了每个组成部分以及它们之间的协同作用，凸显了微小的文本不准确性对破坏现实世界中的检索生成系统所带来的巨大风险。

Apr, 2024

研究多轮LLM交互的提示泄露效应和黑盒防御

对大型语言模型（LLMs）中的提示泄漏进行了研究，发现在多轮LLM交互中存在漏洞和泄漏，并提出了防御策略。

Apr, 2024

幻影：检索增强语言生成的一般触发攻击

检索增强生成（RAG）通过使用外部知识数据库，扩展现代大型语言模型（LLMs）在聊天机器人应用中的能力，使开发者能够在没有昂贵的训练或微调的情况下调整和个性化LLM的输出。本研究提出了针对RAG增强LLMs的新攻击方式，通过向其知识数据库中注入单个恶意文档来危害受害者的RAG系统，从而引发多种针对生成模型的恶意攻击。

May, 2024

机器对抗RAG：用阻塞文档干扰检索增强生成

使用检索增强生成（RAG）系统时，操作可能存在不受信任内容的数据库的RAG系统容易受到一种称为“堵塞”的新型拒绝服务攻击的影响。我们描述和分析了生成堵塞文档的几种方法，包括一种基于黑盒优化的新方法，不需要攻击者了解目标RAG系统使用的嵌入或LLM，也不需要访问辅助LLM来生成堵塞文档。我们对几种LLM和嵌入的方法的有效性进行了测量，并证明了现有的LLM安全度量指标不能捕捉它们受到堵塞攻击的弱点，并讨论了对抗堵塞文档的防御方法。

Jun, 2024

视可知：针对检索增强生成的黑盒成员推断攻击

利用黑盒API访问，使用成员推理攻击的方法来确定一份样本是否属于一个Retrieval-Augmented Generation（RAG）系统的知识数据库，并通过计算余弦相似度和模型的困惑度建立成员评分，提出了两种新的攻击策略：基于阈值的攻击和基于机器学习的攻击。

Jun, 2024

撕扯与滚动：对基于大型语言模型应用框架的间接提示操控的端到端评估

本研究探讨了检索增强生成（RAG）系统在面对间接提示操控时的安全性，填补了该领域对安全隐患的研究空白。通过开发Rag 'n Roll框架，评估现有攻击的有效性，发现尽管攻击的成功率约为40%，但基于模糊答案的计算可使成功率提升至60%。此项工作揭示了现有RAG系统在安全设计方面的潜在不足，为未来研究提供了重要参考。

Aug, 2024

ConfusedPilot：利用Copilot破坏企业信息完整性与机密性

本研究针对当前RAG系统中的安全漏洞进行探讨，揭示了Copilot使用过程中可能引发的信息完整性和机密性问题。通过引入ConfusedPilot，本文分析了故意嵌入恶意文本和数据泄露的漏洞，指出这些漏洞如何在企业内部传播错误信息并影响运营。研究结果强调了加强RAG系统安全性的必要性，并提供了相应的设计指南。

Aug, 2024

ConfusedPilot: 利用 Copilot 破坏企业信息完整性和机密性

本研究解决了基于检索增强生成系统（RAG）在企业应用中安全性的不确定性，揭示了其可能导致的完整性和机密性违规的漏洞。研究提出了两种主要漏洞，一种是通过修改提示嵌入恶意文本，另一种是利用缓存机制泄露机密数据，并探讨了这些漏洞如何传播错误信息，可能对企业运营产生重大影响。研究为未来RAG系统的安全设计提供了指导。

Aug, 2024