撕扯与滚动:对基于大型语言模型应用框架的间接提示操控的端到端评估
使用检索增强生成(RAG)技术可以增强具有专有和私有数据的语言模型,在这种情况下,数据隐私是关键问题。本研究对检索增强生成系统进行了广泛的实证研究,并提出新的攻击方法来揭示其对私有检索数据库的泄露漏洞。尽管RAG技术存在新的风险,但它可以减轻语言模型的训练数据泄露问题,为检索增强语言模型的隐私保护提供了新的见解,对语言模型和RAG系统构建者都具有益处。
Feb, 2024
Retrieval-Augmented Generation (RAG)可以增强预训练模型,通过在测试时引入外部知识以实现定制化适应性。研究发现,Retrieval-In-Context RAG语言模型中存在数据存储泄露的风险,对于多种现代语言模型以及GPTs模型,攻击利用模型的指令跟随功能,通过提示注入轻松从数据存储库中提取文本数据。通过设计一种攻击方法,可以在25个随机选择的自定义GPTs模型上以100%的成功率导致数据存储泄露,并且通过自身生成的仅100个查询,从包含77,000字的书籍和1,569,000字的文集中从文本数据中提取文本数据的比率为41%和3%。
Feb, 2024
通过寻求大规模语言模型与检索生成的完美结合来解决其局限性,本论文研究了在评估检索生成鲁棒性时常被忽视的两个方面:对噪声文档的脆弱性和对检索生成系统的整体评估。同时,论文引入一种新的攻击方法——遗传攻击,用于揭示组成部分中的漏洞并测试系统对噪声文档的功能性。实验结果表明,遗传攻击在不同的数据库和语言模型上均能取得较高的攻击成功率,同时显著破坏了每个组成部分以及它们之间的协同作用,凸显了微小的文本不准确性对破坏现实世界中的检索生成系统所带来的巨大风险。
Apr, 2024
LLM应用开发、检索增强生成、LLM应用、检索污染以及风险评估是本文的关键词。作者揭示了一种称为检索污染的新威胁,攻击者可以通过欺骗LLM应用程序在检索生成过程中生成恶意回应,对应用程序进行破坏。通过分析LLM应用程序框架,攻击者可以制作与正常文档在视觉上几乎无法区分的文档,一旦这些文档被用作检索增强生成的参考来源,应用程序就会产生错误的响应。初步实验表明攻击者可以以88.33%的成功率误导LLM,并在现实世界的应用中达到66.67%的成功率,展示了检索污染的潜在影响。
Apr, 2024
检索增强生成(RAG)通过使用外部知识数据库,扩展现代大型语言模型(LLMs)在聊天机器人应用中的能力,使开发者能够在没有昂贵的训练或微调的情况下调整和个性化LLM的输出。本研究提出了针对RAG增强LLMs的新攻击方式,通过向其知识数据库中注入单个恶意文档来危害受害者的RAG系统,从而引发多种针对生成模型的恶意攻击。
May, 2024
通过结合检索式方法和生成模型,提出了TrojRAG来识别检索部分(RAG数据库)的漏洞和攻击,并间接攻击生成部分(LLMs),通过中毒定制内容来实现检索后门和语义操纵,这些攻击可以包括RAG的拒绝服务攻击和以触发器为条件的生成LLMs的语义操纵。
Jun, 2024
使用检索增强生成(RAG)系统时,操作可能存在不受信任内容的数据库的RAG系统容易受到一种称为“堵塞”的新型拒绝服务攻击的影响。我们描述和分析了生成堵塞文档的几种方法,包括一种基于黑盒优化的新方法,不需要攻击者了解目标RAG系统使用的嵌入或LLM,也不需要访问辅助LLM来生成堵塞文档。我们对几种LLM和嵌入的方法的有效性进行了测量,并证明了现有的LLM安全度量指标不能捕捉它们受到堵塞攻击的弱点,并讨论了对抗堵塞文档的防御方法。
Jun, 2024
利用黑盒API访问,使用成员推理攻击的方法来确定一份样本是否属于一个Retrieval-Augmented Generation(RAG)系统的知识数据库,并通过计算余弦相似度和模型的困惑度建立成员评分,提出了两种新的攻击策略:基于阈值的攻击和基于机器学习的攻击。
Jun, 2024
该研究论文探讨了检索增强的生成模型(RAG)如何整合外部知识库,提高其在事实核查和信息搜索等应用中的性能;同时指出了敌对方如何通过向检索数据库注入虚假内容来更改模型行为,进而对RAG系统进行成功的攻击,为此呼吁在设计和部署RAG系统时采取安全措施以确保机器生成内容的完整性。
Jun, 2024
本研究探讨了RAG系统在企业应用中的安全性缺陷,提出了新的混淆代理攻击方式,导致输出的完整性与机密性受到威胁。研究表明,恶意文本嵌入和数据泄露的漏洞可能被利用,传播错误信息,从而影响企业的运营效率。作者针对当前RAG系统的架构,提出了强化安全性的设计指南。
Aug, 2024