Nov, 2024
SequentialBreak:大型语言模型如何被嵌入监狱的提示欺骗
SequentialBreak: Large Language Models Can be Fooled by Embedding
Jailbreak Prompts into Sequential Prompt Chains
TL;DR本研究解决了大型语言模型在应用中面临的安全漏洞问题,提出了SequentialBreak这一新型监狱攻击方法,该方法通过在单一查询中嵌入恶意提示来操控模型的输出。实验结果表明,SequentialBreak相比现有方法在公开和闭源模型上显著提高了攻击成功率,强调了对大型语言模型加强安全防护的迫切需求。