AI模型卸载：方法与选择

Apr, 2023

AI Model Disgorgement: Methods and Choices

Alessandro Achille, Michael Kearns, Carson Klingenberg, Stefano Soatto

TL;DR本文介绍了一种可能有效的机器学习技术——model disgorgement，在确保数据道德和知识产权保护的前提下，去除训练集数据的缺陷并消除对训练模型带来的不良影响。

Abstract

Responsible use of data is an indispensable part of any machine learning (ML) implementation. ML developers must carefully collect and curate their datasets, and document their provenance. They must also make sur

发现论文，激发创造

机器遗忘

该研究提出了一种名为SISA训练的框架，可在不同数据集、算法和难度的情况下，通过限制特定数据点在模型训练中的影响，加速机器学习模型的「忘记」过程，有助于实现更有效的数据治理。

Dec, 2019

参数高效的Diff剪枝用于偏差缓解

介绍了一种模块化的架构，应用DiffPruning和对抗训练技术在保持语言模型存储效率的同时，减少预设受保护属性对推理结果的影响。

May, 2022

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

纠正机器遗忘

机器学习模型面对大规模互联网数据集引起的数据完整性挑战，本研究探讨在检测到数据被篡改或错误时模型开发者能够做出的应对措施。我们将“修正机器遗忘”定义为解决训练模型中受未知篡改影响数据的问题，尽管只能知道受影响样本的一个小部分。我们发现修正遗忘问题与传统的注重隐私的遗忘方法有显著不同的要求。我们希望我们的工作能促进对修正遗忘方法的研究，为处理来自于大规模网络训练带来的数据完整性挑战的从业者提供新的策略。

Feb, 2024

预训练大型语言模型的机器消除学习

通过对预训练大语言模型的机器遗忘进行综合研究，我们探讨了‘被遗忘权’的概念，重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估，我们建立了机器遗忘性能的鲁棒基准，并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明，在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外，我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解，并强调了负责任的AI发展的潜力。

Feb, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

传统模型与大型语言模型的机器遗忘：简要调查

通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的重要性，以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念，还指出了其突出问题和未来研究的可行方向，为该领域的学者提供了有价值的指导。

Apr, 2024

逆梯度匹配的精简数据模型

通过在线和离线阶段，我们提出了一种高效的框架，评估训练数据对目标模型的影响，通过反向梯度匹配问题建立了一个精简同义词集，用于加速离开一个样本的过程，并计算评估目标基于的归因矩阵。实验证明，相比直接重新训练方法，我们的方法在实现了可比较的模型行为评估的同时，显著加快了过程。

Apr, 2024

MUSE: 机器卸载六方面评估用于语言模型

利用MUSE标准来综合评估了八个七十亿参数的语言模型在删除哈利·波特书籍和新闻文章的过程中，发现现有的算法在阻止严重的隐私泄露方面有限，对模型的技术功用造成退化，并且不能持续支持连续的取消学习请求或大规模内容删除。

Jul, 2024

机器生成虚假信息的模型归因：一种基于监督对比学习的领域泛化方法

本研究针对机器生成虚假信息的模型归因问题，提出将其视为领域泛化问题，探索如何在不同的提示方法下进行准确归因。通过引入基于监督对比学习的创新方法，研究展示了在面对多样化和未知数据集时，其在模型归因任务中取得了先进的表现。这一贡献有助于更好地理解和检测虚假信息的来源。

Jul, 2024