Mar, 2024
不要听我说:理解和探索大型语言模型的越狱提示
Don't Listen To Me: Understanding and Exploring Jailbreak Prompts of Large Language Models
Zhiyuan Yu, Xiaogeng Liu, Shunning Liang, Zach Cameron, Chaowei Xiao...
TL;DR通过系统化研究和用户调查,我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险,尤其是使用 jailbreak prompts 进行潜在有害内容的生成,为了应对这一问题,我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。