Jan, 2024
InferAligner: 通过跨模型指导实现无害性的推理时间对齐
InferAligner: Inference-Time Alignment for Harmlessness through Cross-Model Guidance
Pengyu Wang, Dong Zhang, Linyang Li, Chenkun Tan, Xinghao Wang...
TL;DR通过 InferAligner 方法,在训练领域特定模型以及多模态的大语言模型时,有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR),同时保持了下游任务性能的基本不变。