Jan, 2024

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

TL;DR通过 InferAligner 方法,在训练领域特定模型以及多模态的大语言模型时,有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR),同时保持了下游任务性能的基本不变。