Jan, 2024

大型语言模型上的从弱到强破解

TL;DR通过实验,研究发现了对齐的大型语言模型存在监狱突破漏洞,提出了一种弱到强的监狱突破攻击方法,并介绍了一种针对该攻击的防御策略。