Aug, 2023

现在做任何事情”:对大型语言模型中的自由研究提示进行特征化和评估

TL;DR通过对 wild 中的 jailbreak prompts 进行第一次测量研究,我们发现了 jailbreak prompts 的独特特征以及其攻击策略,并评估了当前 LLMs 和保护措施在各种情况下不能充分防御 jailbreak prompts 的潜在危害,这为研究界和 LLM 供应商在推动更安全和监管的 LLMs 方面提供了指导。