Jul, 2024

大型语言模型是不自觉的说真话者:利用谬误失误进行越狱攻击

TL;DR语言模型在生成虚假和欺骗性推理时存在困难。我们提出了一种越狱攻击方法,通过利用这一缺陷来获取一个具有恶意输出的对齐语言模型。我们的方法在五个安全对齐的大型语言模型上进行了评估,与四种以前的越狱方法进行了比较,展示了竞争性能和更多有害的输出。我们认为这些发现可以扩展到模型安全、自验证和幻觉等领域。