MEOW:基于反向事实的记忆监督大语言模型遗忘
提出了一种高效的取消学习框架,通过引入轻量级的取消学习层并与transformers结合,可以在不对整个模型重新训练的情况下有效地更新大型语言模型,以解决用户数据隐私与数据保护法规的问题。实验证明,与现有技术相比,我们提出的方法在分类和生成任务上的有效性得到了验证。
Oct, 2023
该研究旨在调查机器遗忘(MU),这是一个新兴领域,专注于解决神经模型意外保留个人或敏感数据的问题。本文介绍了一种新的方法,以实现语言模型内的精确选择性遗忘,并提出了两个创新的评估指标:敏感信息提取可能性(S-EL)和敏感信息记忆准确性(S-MA),用于衡量消除敏感信息的有效性。为了加强遗忘框架,提出了一种有效的敏感区域注释方法,包括在线和离线策略。在线选择机制利用语言概率得分确保计算效率,而离线注释则采用基于大型语言模型(LLMs)的强大两阶段过程。
Feb, 2024
通过对预训练大语言模型的机器遗忘进行综合研究,我们探讨了‘被遗忘权’的概念,重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估,我们建立了机器遗忘性能的鲁棒基准,并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明,在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外,我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论,为预训练大语言模型的机器遗忘机制提供了实质性的见解,并强调了负责任的AI发展的潜力。
Feb, 2024
数字遗忘的目标是,通过给定具有不良知识或行为的模型,获得一个新模型,其中不再存在检测到的问题。在大语言模型中,数字遗忘的方法是取消学习方法中目标任务与数据,以达到保护隐私和防止不良内容生成的目的。
Apr, 2024
通过介绍一种新的遗忘框架Unlearning from Logit Difference(ULD),该方法通过计算目标模型与助理模型之间的逻辑差异来实现忘记目标文档和保留其他知识的目标,从而解决了LLM遗忘方法中的两个挑战问题(退化输出和灾难性遗忘),大幅提高了训练效率。
Jun, 2024
我们提出了衡量实际效能的一组度量标准,并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析,我们得出结论,基于梯度上升的方法在实践中并不完美,强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论,朝着实际和有效的大型语言模型遗忘还有很长的路要走,并需要在这个领域投入更多的努力。
Jun, 2024
LLM中各种领域和任务展现出了令人印象深刻的性能,但其安全问题日益严重。我们提出了O3框架,通过包含离散分布检测器和正交低秩适配器,解决连续的反学习请求,同时在保持效用的同时确保最佳的反学习效果。
Jul, 2024
本研究解决了语言模型在推断时可能导致逐字复述训练数据的问题。我们提出了多种新的减轻记忆化的方法,尤其是基于“非学习”方法的BalancedSubnet,能够有效去除语言模型中的记忆信息,同时保持目标任务的性能。研究结果表明,该方法在提高效率的同时,解决了隐私或敏感数据引发的安全隐患。
Oct, 2024
本研究解决了大型语言模型在涉及敏感或版权内容时的隐私和法律问题,提出了机器遗忘的思路。我们引入了三种新的评估指标,探讨了无目标和有目标的遗忘方法及其问题,并提出了基于最大化熵和答案保留损失的改进策略。实验结果表明,所提方法在多种场景下均有效。
Oct, 2024
本研究解决了大型语言模型(LLM)在隐私泄露、偏见、安全性和法规演变等领域的伦理使用问题。我们提出了一种新的“仅使用遗忘数据损失调整”(FLAT)方法,消除了对保留数据或参考模型的依赖,通过优化响应和遗忘数据之间的差异,显著提高了模型的遗忘性能,同时保持高效能。实验结果证明,该方法在多个任务中表现优异,确保了模型能力的最大保留。
Oct, 2024