ICLRFeb, 2024

大型语言模型的好奇心驱动的红队扮演

TL;DR通过好奇心驱动的红队(CRT),我们提出了一种自动生成测试用例的方法,以增加生成的测试用例的覆盖范围,并成功地从经过重度优化以避免有害结果的 LLaMA2 模型中引发有害回应。