Jun, 2024

知识破解:一知识点价值一次攻击

TL;DR通过知识生成越狱攻击以评估大型语言模型在特定领域的安全性,证明了越狱生成器在生成与给定知识相关且对目标语言模型有害的越狱攻击方面的有效性。