Aug, 2024

撕扯与滚动:对基于大型语言模型应用框架的间接提示操控的端到端评估

TL;DR本研究探讨了检索增强生成(RAG)系统在面对间接提示操控时的安全性,填补了该领域对安全隐患的研究空白。通过开发Rag 'n Roll框架,评估现有攻击的有效性,发现尽管攻击的成功率约为40%,但基于模糊答案的计算可使成功率提升至60%。此项工作揭示了现有RAG系统在安全设计方面的潜在不足,为未来研究提供了重要参考。