大语言模型解除学习的潜在表征引导效应

Aug, 2024

大语言模型解除学习的潜在表征引导效应

On Effects of Steering Latent Representation for Large Language Model Unlearning

Dang Huu-Tien, Trung-Tin Pham, Hoang Thanh-Tung, Naoya Inoue

TL;DR本研究针对大语言模型解除学习中存在的表征误导问题，提出了通过引导中间层表征来实现有效解除学习的方法。研究表明，引导表征能够降低生成的响应信心，从而导致错误结果。此外，提出的自适应表征引导方法在不同网络层上显著提高了解除学习的效果，且没有额外的计算成本。

Abstract

Representation Misdirection for Unlearning (RMU), which steers model representation in the intermediate layer to a target random representation, is an effective method for large language model (LLM) Unlearning. D

发现论文，激发创造

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用2％的计算时间时实现更好的对齐性能比RLHF。

Oct, 2023

遗忘您想遗忘的内容：针对LLMs的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与transformers结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

预训练大型语言模型的机器消除学习

通过对预训练大语言模型的机器遗忘进行综合研究，我们探讨了‘被遗忘权’的概念，重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估，我们建立了机器遗忘性能的鲁棒基准，并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明，在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外，我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解，并强调了负责任的AI发展的潜力。

Feb, 2024

单图像去学习：多模态大型语言模型中高效的机器去学习

通过建立大规模多模态语言模型（Multimodal Large Language Models）的遗忘模型，研究了“机器遗忘”（Machine unlearning）中的视觉数据遗忘问题，提出了一种高效的方法 Single Image Unlearning（SIU），通过对单个相关图像进行微调，实现对概念的可视化识别的遗忘。实验证明 SIU 显著优于现有方法，并能够避免入侵式成员推断攻击和越狱攻击。

May, 2024

大型语言模型通过嵌入损坏的提示进行遗忘学习

大语言模型的轻便取消学习框架(ECO)通过使用提示分类器在推理过程中添加和损坏的提示嵌入来实现知识的取消学习。

Jun, 2024

控制中的遗忘：对大型语言模型遗忘的现实应用评估

我们提出了衡量实际效能的一组度量标准，并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析，我们得出结论，基于梯度上升的方法在实践中并不完美，强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论，朝着实际和有效的大型语言模型遗忘还有很长的路要走，并需要在这个领域投入更多的努力。

Jun, 2024

RWKU：大规模语言模型的真实世界知识遗忘基准测试

机器遗忘是一种有效地通过事后修改模型来消除特定知识的方法，在本文中，我们提出了一个用于大型语言模型（LLMs）遗忘的真实世界知识遗忘基准（RWKU），该基准考虑了任务设置、知识来源和评估框架等关键因素。

Jun, 2024

大规模语言模型的实用取消学习

LLM中各种领域和任务展现出了令人印象深刻的性能，但其安全问题日益严重。我们提出了O3框架，通过包含离散分布检测器和正交低秩适配器，解决连续的反学习请求，同时在保持效用的同时确保最佳的反学习效果。

Jul, 2024

面向大型语言模型的鲁棒且成本高效的知识遗忘

本研究解决了大型语言模型在处理敏感数据时面临的隐私和版权风险，提出了有效的知识遗忘框架。通过设计反向铰链损失和基于Fisher加权的低秩近似初始化方法，显著提高了模型遗忘能力的效率与知识保留，同时降低了计算成本。

Aug, 2024

朝着鲁棒的知识遗忘：一种用于评估和提高大语言模型遗忘鲁棒性的对抗框架

本研究解决了现有大语言模型在知识遗忘过程中容易受到对抗性查询攻击的问题。我们提出了动态遗忘攻击(DUA)框架，对模型的脆弱性进行评估，同时提出了潜在对抗遗忘(LAU)框架，采用最小-最大优化方法提高遗忘过程的鲁棒性。实验表明，我们的方法显著提升了遗忘有效性超过53.5%，有效抵御了知识再显现。

Aug, 2024