Jun, 2024

对大型语言模型的后门攻击和防御调研:对安全措施的影响

TL;DR该研究论文侧重于细调方法,系统地将后门攻击分类为全参数细调、参数高效细调和无细调攻击,并讨论了未来研究中关键问题,例如无需细调的攻击算法和更隐蔽的攻击算法,以填补现有后门攻击调查的知识空白。