Mar, 2024

不要听我说:理解和探索大型语言模型的越狱提示

TL;DR通过系统化研究和用户调查,我们发现生成式 AI 技术中的大型语言模型 (LLMs) 存在滥用、绕过安全限制的风险,尤其是使用 jailbreak prompts 进行潜在有害内容的生成,为了应对这一问题,我们开发了一个基于人工智能的系统来自动化产生 jailbreak prompts 的过程。