Sep, 2024

多任务混乱:揭示并缓解大语言模型中的安全缺口

TL;DR本研究针对大语言模型(LLMs)在微调过程中可能出现的安全性下降问题进行探讨,现有的安全对齐措施对于不同任务的鲁棒性不足。本文提出了一种新的多任务安全数据集,有效降低了多种任务的攻击成功率,同时确保模型的整体实用性。研究表明,微调在代码生成和翻译任务中对安全性的影响最为显著。