Jul, 2024

安全微调的因果研究:成效与障碍

TL;DR通过设计合成数据生成框架,研究了三种常见的安全微调方法,即监督安全微调、直接偏好优化和遗忘学习。它们通过最小程度地转换多层感知器(MLP)权重,将不安全输入与权重的空空间相对齐,进而对输入进行聚类,确定模型是否将其视为安全。该研究还验证了这些结论在真实世界模型(Llama-2 7B和Llama-3 8B)上的可行性。