文本反学习带来了一种虚假的反学习感知
本研究提出知识遗忘(knowledge unlearning)作为一种减少预训练语言模型(pretrained language models)隐私风险的方法,通过对目标标记序列进行梯度上升来遗忘它们,并发现顺序遗忘优于尝试一次性遗忘所有数据,对于特定领域的数据,知识遗忘具有更强的实证隐私保证,同时更加高效和鲁棒。
Oct, 2022
该调查提供了机器遗忘技术的简明评估,概述了准确和近似方法、可疑攻击和验证方法,并比较了每种方法的优点和局限性,评估了它们的性能,突出了挑战性的需求。提供强大的非IID删除模型以缓解公平性问题,并指出该领域未来的研究方向,旨在为寻求在ML系统中提供隐私和平等的研究人员和从业者提供有价值的资源。
May, 2023
通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法,本研究提供了关于LLMs隐私保护和遗忘的新视角,并在大量NLP任务上进行了全面的性能评估。
May, 2024
本研究论文提出了一种创新的方法,针对多语言语言模型的机器遗忘,通过选择性地擦除不同语言中的信息,同时保持总体性能,有效解决了低资源语言攻击的问题,为安全可适应的多语言语言模型设定了新的标准。
Jun, 2024
机器不学习是一种减轻机器学习模型中训练数据不良记忆的有希望的方法。然而,在这项工作中,我们显示出现有的LLMs取消学习方法意外地容易受到一组简单有针对性的重新学习攻击的影响。通过仅访问少量可能松散相关的数据集,我们发现可以“调整”取消学习模型的记忆以逆转取消学习的效果。我们系统地阐述了这种取消学习-重新学习流程,探索了三个流行的取消学习基准测试中的攻击,并讨论了我们研究的结果产生的未来方向和指南。
Jun, 2024
该论文讨论了在大型语言模型中使用取消学习作为一种控制机制,并发现取消学习在训练阶段是有效的,但无法阻止模型在推断过程中出现不合规的行为,因此对于有效的内容规范,需要进行内容过滤以及引入取消取消学习的概念来解决问题。
Jun, 2024
本研究解决了现有大语言模型在知识遗忘过程中容易受到对抗性查询攻击的问题。我们提出了动态遗忘攻击(DUA)框架,对模型的脆弱性进行评估,同时提出了潜在对抗遗忘(LAU)框架,采用最小-最大优化方法提高遗忘过程的鲁棒性。实验表明,我们的方法显著提升了遗忘有效性超过53.5%,有效抵御了知识再显现。
Aug, 2024
本研究解决了在私人数据上微调大型语言模型时可能带来的隐私风险。我们提出了一种新颖的攻击方法——模型遗忘技术,利用这一技术提升了隐私数据泄露的可能性,并在验证中显示出显著优于基线的效果。这项研究警示用户下载未经验证的预训练模型时可能面临的风险。
Aug, 2024
本研究解决了大型语言模型在机器遗忘过程中是否真正实现遗忘的问题,指出现有方法可能只是隐藏了知识,而非完全遗忘。通过对量化技术的深入实验,发现经过遗忘处理的模型在不同精度下显著保留了遗忘知识,提出了一种量化稳健的遗忘策略,旨在优化遗忘效果并提升模型的实用性。
Oct, 2024