利用检索增强生成模型的漏洞

Jun, 2024

"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models

Zhen Tan, Chengshuai Zhao, Raha Moraffah, Yifan Li, Song Wang...

TL;DR该研究论文探讨了检索增强的生成模型（RAG）如何整合外部知识库，提高其在事实核查和信息搜索等应用中的性能；同时指出了敌对方如何通过向检索数据库注入虚假内容来更改模型行为，进而对 RAG 系统进行成功的攻击，为此呼吁在设计和部署 RAG 系统时采取安全措施以确保机器生成内容的完整性。

Abstract

Retrieval-Augmented Generative (RAG) models enhance Large Language Models (LLMs) by integrating external knowledge bases, improving their performance in applications like fact-checking and information searching. In this paper, we demonstrate a →

retrieval-augmented generative models external knowledge bases security threat deceptive content rag systems

发现论文，激发创造

BadRAG：大型语言模型检测检索增强生成中的漏洞

通过结合检索式方法和生成模型，提出了 TrojRAG 来识别检索部分（RAG 数据库）的漏洞和攻击，并间接攻击生成部分（LLMs），通过中毒定制内容来实现检索后门和语义操纵，这些攻击可以包括 RAG 的拒绝服务攻击和以触发器为条件的生成 LLMs 的语义操纵。

Jun, 2024

幻影：检索增强语言生成的一般触发攻击

检索增强生成（RAG）通过使用外部知识数据库，扩展现代大型语言模型（LLMs）在聊天机器人应用中的能力，使开发者能够在没有昂贵的训练或微调的情况下调整和个性化 LLM 的输出。本研究提出了针对 RAG 增强 LLMs 的新攻击方式，通过向其知识数据库中注入单个恶意文档来危害受害者的 RAG 系统，从而引发多种针对生成模型的恶意攻击。

May, 2024

PoisonedRAG：对大型语言模型的检索辅助生成进行的知识投毒攻击

通过注入有毒文本到知识库中，攻击者可以使大型语言模型生成攻击者选择的目标问题的攻击者选择的目标答案。我们提出了两种解决方案来解决这个优化问题，分别从黑盒和白盒背景的角度出发，攻击成功率达到了 90%。我们还评估了最近提出的防御方法，结果显示它们对我们的攻击不足以进行有效防御，凸显出对新的防御方法的需求。

Feb, 2024

检索增强生成（RAG）中隐私问题的探索

使用检索增强生成（RAG）技术可以增强具有专有和私有数据的语言模型，在这种情况下，数据隐私是关键问题。本研究对检索增强生成系统进行了广泛的实证研究，并提出新的攻击方法来揭示其对私有检索数据库的泄露漏洞。尽管 RAG 技术存在新的风险，但它可以减轻语言模型的训练数据泄露问题，为检索增强语言模型的隐私保护提供了新的见解，对语言模型和 RAG 系统构建者都具有益处。

Feb, 2024

大语言模型的检索增强生成：综述

大型语言模型（LLMs）在实际应用中仍面临幻觉、知识更新缓慢和答案透明度不足等挑战。检索增强生成（RAG）是指在 LLMs 回答问题之前从外部知识库中检索相关信息。该论文概述了 LLMs 时代 RAG 的发展范式，总结了三种范式：Naive RAG，Advanced RAG 和 Modular RAG。同时，它提供了 RAG 的三个主要组成部分：检索器、生成器和增强方法的摘要和组织，以及每个组件的关键技术。此外，论文讨论了如何评估 RAG 模型的有效性，并介绍了两种 RAG 的评估方法、重点指标和能力，以及最新的自动评估框架。最后，从垂直优化、水平可扩展性和 RAG 的技术堆栈和生态系统三个方面引入了潜在的未来研究方向。

Dec, 2023

遵循我的指示并透露机密：检索增强型生成系统的可伸缩数据提取

Retrieval-Augmented Generation (RAG) 可以增强预训练模型，通过在测试时引入外部知识以实现定制化适应性。研究发现，Retrieval-In-Context RAG 语言模型中存在数据存储泄露的风险，对于多种现代语言模型以及 GPTs 模型，攻击利用模型的指令跟随功能，通过提示注入轻松从数据存储库中提取文本数据。通过设计一种攻击方法，可以在 25 个随机选择的自定义 GPTs 模型上以 100% 的成功率导致数据存储泄露，并且通过自身生成的仅 100 个查询，从包含 77,000 字的书籍和 1,569,000 字的文集中从文本数据中提取文本数据的比率为 41% 和 3%。

Feb, 2024

关于 RAG 遇见 LLM 的调研：走向检索增强的大型语言模型

检视了检索增强型大型语言模型（RA-LLMs）的现有研究，涵盖体系结构、训练策略和应用三个主要技术视角，并介绍了此类模型的基础知识和最新进展，以及它们为大型语言模型（LLMs）带来的实际意义和应用领域的挑战和能力，最后讨论了当前的局限性和未来研究的几个有前途的方向。

May, 2024

TrojanRAG: 大型语言模型中的检索增强生成可以成为后门驱动程序

利用 Retrieval-Augmented Generation 进行联合后门攻击，针对大型语言模型（LLMs）的安全威胁进行探讨，通过构建精巧的目标上下文和触发器集合，通过对比学习优化多对后门快捷方式，从而限制触发条件以提高匹配率，并引入知识图谱进行结构化数据构建实现目标上下文的精确匹配，验证后门对 LLMs 的真实伤害以及上下文是否为越狱模型提供有利工具，实验证明 TrojanRAG 在正常查询中保持检索能力同时展示多样化的安全威胁。

May, 2024

Vul-RAG: 基于知识级 RAG 的 LLM 漏洞检测增强

使用 LL 元模型构建脆弱性知识库，并利用知识级检索增强生成（RAG）框架检测给定代码的脆弱性，取得显著的改进。

Jun, 2024

纠错检索增强生成

大语言模型（LLMs）不可避免地产生幻觉，因为仅依靠它们所封装的参数知识无法确保生成的文本的准确性。为了改善生成的鲁棒性，我们提出了纠正检索增强生成（CRAG）。通过设计轻量级的检索评估模型来评估检索文档的整体质量，并基于此返回信心度，从而触发不同的知识检索操作。此外，利用大规模网络搜索扩展检索结果。通过分解和重组算法，选择性关注关键信息并过滤掉不相关信息。CRAG 与各种基于 RAG 的方法可以无缝连接。在涵盖短文和长文生成任务的四个数据集上的实验表明，CRAG 可以显著提高基于 RAG 的方法的性能。

Jan, 2024