Aug, 2024

不可能的任务:对大规模语言模型越狱的统计视角

TL;DR本文研究了大规模语言模型(LLMs)在偏好对齐过程中可能出现的越狱现象,指出现有方法未能有效防止有害行为的生成。我们提出了一种新的统计对齐概念E-RLHF,旨在安全响应的可能性上更具优势,并在多个对齐问题的实证研究中优于传统方法,而不增加额外的训练成本。