Feb, 2024

通过修剪和低秩修改评估安全对齐的脆弱性

TL;DR利用剪枝和低秩修改探索大型语言模型的安全与稳健性,发现关键区域的剔除威胁了安全性但对效用影响不大,同时指出即使限制对关键区域的修改,大型语言模型仍然容易受到低成本的微调攻击,强调了对大型语言模型更强健的安全策略的迫切需求。