检索增强生成(RAG)中隐私问题的探索
本研究提出了C-RAG框架,旨在为RAG模型证明世代风险。具体地,我们为RAG模型提供了符合风险分析,并认证了世代风险的上界置信度称为符合世代风险。我们还对测试分布转移下的一般有界风险函数的符合世代风险提供了理论保证。当检索模型和变换器的质量非平凡时,我们证明了RAG模型实现了比单个LLM更低的符合世代风险。通过对四个广泛使用的自然语言处理数据集在四个最先进的检索模型上进行的强化实证结果表明了我们符合尾世代风险保证的可靠性和紧密性。
Feb, 2024
Retrieval-Augmented Generation (RAG)可以增强预训练模型,通过在测试时引入外部知识以实现定制化适应性。研究发现,Retrieval-In-Context RAG语言模型中存在数据存储泄露的风险,对于多种现代语言模型以及GPTs模型,攻击利用模型的指令跟随功能,通过提示注入轻松从数据存储库中提取文本数据。通过设计一种攻击方法,可以在25个随机选择的自定义GPTs模型上以100%的成功率导致数据存储泄露,并且通过自身生成的仅100个查询,从包含77,000字的书籍和1,569,000字的文集中从文本数据中提取文本数据的比率为41%和3%。
Feb, 2024
通过寻求大规模语言模型与检索生成的完美结合来解决其局限性,本论文研究了在评估检索生成鲁棒性时常被忽视的两个方面:对噪声文档的脆弱性和对检索生成系统的整体评估。同时,论文引入一种新的攻击方法——遗传攻击,用于揭示组成部分中的漏洞并测试系统对噪声文档的功能性。实验结果表明,遗传攻击在不同的数据库和语言模型上均能取得较高的攻击成功率,同时显著破坏了每个组成部分以及它们之间的协同作用,凸显了微小的文本不准确性对破坏现实世界中的检索生成系统所带来的巨大风险。
Apr, 2024
引入了一种高效且易于使用的方法,用于针对检索增强生成(RAG)系统进行成员推断攻击(MIA);通过使用两个基准数据集和多个生成模型,我们展示了我们攻击的有效性,并且在黑盒和灰盒设置下,可以通过创建适当的提示来高效地确定文档在检索数据库中的成员身份;我们的研究结果突出了实施安全对策以保护检索数据库隐私和安全的重要性。
May, 2024
通过结合检索式方法和生成模型,提出了TrojRAG来识别检索部分(RAG数据库)的漏洞和攻击,并间接攻击生成部分(LLMs),通过中毒定制内容来实现检索后门和语义操纵,这些攻击可以包括RAG的拒绝服务攻击和以触发器为条件的生成LLMs的语义操纵。
Jun, 2024
利用黑盒API访问,使用成员推理攻击的方法来确定一份样本是否属于一个Retrieval-Augmented Generation(RAG)系统的知识数据库,并通过计算余弦相似度和模型的困惑度建立成员评分,提出了两种新的攻击策略:基于阈值的攻击和基于机器学习的攻击。
Jun, 2024
本研究探讨了检索增强生成(RAG)系统在面对间接提示操控时的安全性,填补了该领域对安全隐患的研究空白。通过开发Rag 'n Roll框架,评估现有攻击的有效性,发现尽管攻击的成功率约为40%,但基于模糊答案的计算可使成功率提升至60%。此项工作揭示了现有RAG系统在安全设计方面的潜在不足,为未来研究提供了重要参考。
Aug, 2024
本研究针对检索增强生成(RAG)系统的可信性问题进行探讨,这是一项在大型语言模型(LLMs)发展中日益重要的研究领域。我们提出了一个统一框架,从事实性、鲁棒性、公平性、透明性、问责性和隐私六个维度评估RAG系统的可信性,并通过文献回顾和基准评估,为提高RAG系统在实际应用中的可信性提供了实用见解和未来研究的挑战。
Sep, 2024
本研究探讨了检索增强生成(RAG)对大型语言模型(LLMs)公平性的影响,揭示了在用户对公平性意识的不同水平下,RAG如何导致不公平结果。我们通过实验证明,即使在完全审查和声称无偏的数据集上,RAG也会导致有偏见的输出,因此需要新的策略来确保公平性。
Oct, 2024
本研究针对检索增强生成(RAG)系统的知识数据库中的数据提取攻击问题进行了深入探讨。我们提出了一种新的方法,通过在微调阶段注入少量毒化数据来创建后门,攻击者借此可以操控模型泄露数据库中的文件。研究结果显示,即使仅使用3%的毒化数据,我们的方法在精确提取方面也能达到79.7%的成功率,凸显了RAG系统在隐私保护方面的潜在风险。
Nov, 2024