Aug, 2023

现在做任何事情”:对大型语言模型中的自由研究提示进行特征化和评估

TL;DR通过对wild中的jailbreak prompts进行第一次测量研究,我们发现了jailbreak prompts的独特特征以及其攻击策略,并评估了当前LLMs和保护措施在各种情况下不能充分防御jailbreak prompts的潜在危害,这为研究界和LLM供应商在推动更安全和监管的LLMs方面提供了指导。