低级扰动模拟野外文档对 RAG 管道的遗传攻击

Apr, 2024

低级扰动模拟野外文档对 RAG 管道的遗传攻击

Typos that Broke the RAG's Back: Genetic Attack on RAG Pipeline by Simulating Documents in the Wild via Low-level Perturbations

HTML

PDF

Sukmin Cho, Soyeong Jeong, Jeongyeon Seo, Taeho Hwang, Jong C. Park

TL;DR通过寻求大规模语言模型与检索生成的完美结合来解决其局限性，本论文研究了在评估检索生成鲁棒性时常被忽视的两个方面：对噪声文档的脆弱性和对检索生成系统的整体评估。同时，论文引入一种新的攻击方法——遗传攻击，用于揭示组成部分中的漏洞并测试系统对噪声文档的功能性。实验结果表明，遗传攻击在不同的数据库和语言模型上均能取得较高的攻击成功率，同时显著破坏了每个组成部分以及它们之间的协同作用，凸显了微小的文本不准确性对破坏现实世界中的检索生成系统所带来的巨大风险。

Abstract

The robustness of recent large language models (LLMs) has become increasingly crucial as their applicability expands across various domains and real-world applications. →

发现论文，激发创造

C-RAG: 检索扩展语言模型的认证生成风险

本研究提出了C-RAG框架，旨在为RAG模型证明世代风险。具体地，我们为RAG模型提供了符合风险分析，并认证了世代风险的上界置信度称为符合世代风险。我们还对测试分布转移下的一般有界风险函数的符合世代风险提供了理论保证。当检索模型和变换器的质量非平凡时，我们证明了RAG模型实现了比单个LLM更低的符合世代风险。通过对四个广泛使用的自然语言处理数据集在四个最先进的检索模型上进行的强化实证结果表明了我们符合尾世代风险保证的可靠性和紧密性。

Feb, 2024

遵循我的指示并透露机密：检索增强型生成系统的可伸缩数据提取

Retrieval-Augmented Generation (RAG)可以增强预训练模型，通过在测试时引入外部知识以实现定制化适应性。研究发现，Retrieval-In-Context RAG语言模型中存在数据存储泄露的风险，对于多种现代语言模型以及GPTs模型，攻击利用模型的指令跟随功能，通过提示注入轻松从数据存储库中提取文本数据。通过设计一种攻击方法，可以在25个随机选择的自定义GPTs模型上以100%的成功率导致数据存储泄露，并且通过自身生成的仅100个查询，从包含77,000字的书籍和1,569,000字的文集中从文本数据中提取文本数据的比率为41%和3%。

Feb, 2024

可证明鲁棒检索错误的RAG模型

在本文中，我们提出了RobustRAG作为对抗检索污染攻击的第一个防御框架，通过采用独立后聚合策略，我们设计了基于关键词和解码的算法，以安全地聚合非结构化文本响应，并证明了RobustRAG在某些查询上能始终返回准确的响应，即使攻击者对我们的防御有完全了解并能随意注入少量恶意段落。我们在开放域问题回答和长文本生成数据集上评估了RobustRAG，展示了其在各种任务和数据集上的有效性和泛化能力。

May, 2024

幻影：检索增强语言生成的一般触发攻击

检索增强生成（RAG）通过使用外部知识数据库，扩展现代大型语言模型（LLMs）在聊天机器人应用中的能力，使开发者能够在没有昂贵的训练或微调的情况下调整和个性化LLM的输出。本研究提出了针对RAG增强LLMs的新攻击方式，通过向其知识数据库中注入单个恶意文档来危害受害者的RAG系统，从而引发多种针对生成模型的恶意攻击。

May, 2024

BadRAG：大型语言模型检测检索增强生成中的漏洞

通过结合检索式方法和生成模型，提出了TrojRAG来识别检索部分（RAG数据库）的漏洞和攻击，并间接攻击生成部分（LLMs），通过中毒定制内容来实现检索后门和语义操纵，这些攻击可以包括RAG的拒绝服务攻击和以触发器为条件的生成LLMs的语义操纵。

Jun, 2024

视可知：针对检索增强生成的黑盒成员推断攻击

利用黑盒API访问，使用成员推理攻击的方法来确定一份样本是否属于一个Retrieval-Augmented Generation（RAG）系统的知识数据库，并通过计算余弦相似度和模型的困惑度建立成员评分，提出了两种新的攻击策略：基于阈值的攻击和基于机器学习的攻击。

Jun, 2024

撕扯与滚动：对基于大型语言模型应用框架的间接提示操控的端到端评估

本研究探讨了检索增强生成（RAG）系统在面对间接提示操控时的安全性，填补了该领域对安全隐患的研究空白。通过开发Rag 'n Roll框架，评估现有攻击的有效性，发现尽管攻击的成功率约为40%，但基于模糊答案的计算可使成功率提升至60%。此项工作揭示了现有RAG系统在安全设计方面的潜在不足，为未来研究提供了重要参考。

Aug, 2024

检索增强生成系统的可信性研究

本研究针对检索增强生成(RAG)系统的可信性问题进行探讨，这是一项在大型语言模型(LLMs)发展中日益重要的研究领域。我们提出了一个统一框架，从事实性、鲁棒性、公平性、透明性、问责性和隐私六个维度评估RAG系统的可信性，并通过文献回顾和基准评估，为提高RAG系统在实际应用中的可信性提供了实用见解和未来研究的挑战。

Sep, 2024

HijackRAG：针对检索增强大语言模型的劫持攻击

本研究揭示了一种新的安全漏洞，称为检索提示劫持攻击（HijackRAG），其允许攻击者通过向知识数据库注入恶意文本来操控检索增强生成（RAG）系统，从而生成错误答案而非正确答案。我们提出了针对不同攻击者知识水平的黑箱和白箱攻击策略，并通过大量实验表明，HijackRAG在多种基准数据集上成功率较高，且跨不同检索模型可转移，凸显了其对RAG系统的广泛风险。

Oct, 2024

通过后门实现的检索增强生成中的数据提取攻击

本研究针对检索增强生成（RAG）系统的知识数据库中的数据提取攻击问题进行了深入探讨。我们提出了一种新的方法，通过在微调阶段注入少量毒化数据来创建后门，攻击者借此可以操控模型泄露数据库中的文件。研究结果显示，即使仅使用3%的毒化数据，我们的方法在精确提取方面也能达到79.7%的成功率，凸显了RAG系统在隐私保护方面的潜在风险。

Nov, 2024