Aug, 2024

在大型语言模型中去除特洛伊木马的研究:自然语言与源代码的比较

TL;DR本文解决了在大型语言模型中去除嵌入特洛伊木马的影响这一问题。我们提出了一种新颖的去学习方法LYA,结合了梯度上升和基于费舍尔信息矩阵的正则化技术,与传统方法相比,LYA在消除模型中特洛伊木马的影响方面表现更佳,同时保持了模型的原始功能。这是首个比较自然语言和编码领域特洛伊木马的机器去学习的研究。