在大型语言模型中去除特洛伊木马的研究：自然语言与源代码的比较

Aug, 2024

在大型语言模型中去除特洛伊木马的研究：自然语言与源代码的比较

Unlearning Trojans in Large Language Models: A Comparison Between Natural Language and Source Code

Mahdi Kazemi, Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour, Sen Lin

TL;DR本文解决了在大型语言模型中去除嵌入特洛伊木马的影响这一问题。我们提出了一种新颖的去学习方法LYA，结合了梯度上升和基于费舍尔信息矩阵的正则化技术，与传统方法相比，LYA在消除模型中特洛伊木马的影响方面表现更佳，同时保持了模型的原始功能。这是首个比较自然语言和编码领域特洛伊木马的机器去学习的研究。

Abstract

This work investigates the application of Machine Unlearning (MU) for mitigating the impact of Trojans embedded in conventional Large Language Mo

发现论文，激发创造

为了娱乐和利益对语言模型进行特洛伊植入

本研究旨在研究恶意预训练语言模型对NLP系统带来的安全威胁，通过TROJAN-LM攻击来实现NLP系统的误操作，并提供分析性证明及可能的对策。

Aug, 2020

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024

预训练大型语言模型的机器消除学习

通过对预训练大语言模型的机器遗忘进行综合研究，我们探讨了‘被遗忘权’的概念，重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估，我们建立了机器遗忘性能的鲁棒基准，并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明，在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外，我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解，并强调了负责任的AI发展的潜力。

Feb, 2024

大型语言模型中的特洛伊木马检测：来自特洛伊木马检测挑战的见解

大语言模型（LLMs）在各个领域展示出了显著的能力，但它们对木马或后门攻击的脆弱性带来了重大的安全风险。本研究探讨了通过特洛伊检测竞赛2023（TDC2023）获得的挑战和见解，该竞赛的重点是识别和评估对LLMs的特洛伊攻击。我们研究了区分有意和无意触发器之间的困难，以及在实际情况中逆向工程特洛伊的可行性。我们对各种特洛伊检测方法进行了比较分析，发现实现高召回率比获得高逆向工程攻击成功率（REASR）更具挑战性。竞赛中表现最佳的方法实现了约0.16的召回率，与从与训练前缀类似的分布中随机抽取句子的简单基线相当。这一发现提出了关于仅给定有害目标的情况下模型中插入的特洛伊的可检测性和恢复性的问题。尽管无法完全解决问题，但该竞赛揭示了关于特洛伊检测的可行性和改进LLM输入提示技术的有趣观察。无意触发器的现象及其与有意触发器的区分困难突显了对LLMs的鲁棒性和可解释性进行进一步研究的需求。TDC2023对于特洛伊检测在LLMs中的挑战和机遇提供了宝贵的见解，为今后在这一领域确保其在实际应用中的安全性和可靠性奠定了基础。

Apr, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对LLM进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改LLM中的学习信息，以解决有害回应和版权问题。

May, 2024

控制中的遗忘：对大型语言模型遗忘的现实应用评估

我们提出了衡量实际效能的一组度量标准，并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析，我们得出结论，基于梯度上升的方法在实践中并不完美，强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论，朝着实际和有效的大型语言模型遗忘还有很长的路要走，并需要在这个领域投入更多的努力。

Jun, 2024

拆分、遗忘、合并: 通过数据属性提升LLM中的更有效遗忘

大型语言模型 (LLMs) 存在社会和伦理风险，如生成有害语言或促进危险知识的恶意使用。本文提出了“SPlit, UNlearn, MerGE” (SPUNGE) 框架，可与任何去学习方法结合以增强其效果。我们实验证明，SPUNGE 在现代化大型语言模型上显著改进了两种最新的去学习方法的性能，同时保持了其在标准学术基准上的通用能力。

Jun, 2024

如果不理解就不要使用：通过层间过滤器消除木马

研究找到和解决大语言模型中出现的意外行为的困难，并针对注入的数据毒害特洛伊木马提供了普遍适用的方法以及实际实施方式。

Jul, 2024

MUSE: 机器卸载六方面评估用于语言模型

利用MUSE标准来综合评估了八个七十亿参数的语言模型在删除哈利·波特书籍和新闻文章的过程中，发现现有的算法在阻止严重的隐私泄露方面有限，对模型的技术功用造成退化，并且不能持续支持连续的取消学习请求或大规模内容删除。

Jul, 2024

面向大型语言模型的鲁棒且成本高效的知识遗忘

本研究解决了大型语言模型在处理敏感数据时面临的隐私和版权风险，提出了有效的知识遗忘框架。通过设计反向铰链损失和基于Fisher加权的低秩近似初始化方法，显著提高了模型遗忘能力的效率与知识保留，同时降低了计算成本。

Aug, 2024