Feb, 2025
针对大型语言模型的监狱破解高效安全改进
Efficient Safety Retrofitting Against Jailbreaking for LLMs
TL;DR本研究解决了大型语言模型(LLMs)在面临监狱破解攻击时的安全性问题,提出了一种名为Egida的扩展数据集,涵盖多种安全主题和攻击风格。通过直接偏好优化(DPO),研究显示,与传统方法相比,采用小样本训练(仅2,000个样本)即可显著降低攻击成功率(减少10%-30%),同时增强模型对新主题和攻击风格的泛化能力。