通过遗忘减缓语言模型中的社会偏见
机器遗忘是人工智能中的一个新领域,专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战,特别是在大型语言模型(LLM)的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法,以便符合伦理、隐私和安全标准,并目标性地删除或修改 LLM 中的学习信息,以解决有害回应和版权问题。
May, 2024
通过对预训练大语言模型的机器遗忘进行综合研究,我们探讨了‘被遗忘权’的概念,重点关注了尚未充分研究的预训练模型领域。通过对来自 arXiv、书籍和 GitHub 的精选数据集进行严格评估,我们建立了机器遗忘性能的鲁棒基准,并证明这些方法的计算效率比重新训练高出 10^5 倍。我们的研究结果表明,在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外,我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德 AI 实践的讨论,为预训练大语言模型的机器遗忘机制提供了实质性的见解,并强调了负责任的 AI 发展的潜力。
Feb, 2024
本研究提出知识遗忘(knowledge unlearning)作为一种减少预训练语言模型(pretrained language models)隐私风险的方法,通过对目标标记序列进行梯度上升来遗忘它们,并发现顺序遗忘优于尝试一次性遗忘所有数据,对于特定领域的数据,知识遗忘具有更强的实证隐私保证,同时更加高效和鲁棒。
Oct, 2022
大型语言模型(LLMs)在预训练过程中经常记忆敏感、私人或受版权保护的数据。LLM unlearning 旨在消除预训练模型中不需要的数据的影响,同时保留模型在其他任务上的效用。本文提出了一种简单的基于对齐的方法 ——Negative Preference Optimization(NPO),可以高效有效地 unlearn 目标数据集。通过在合成数据和基准 TOFU 数据集上的实验证明,基于 NPO 的方法在 unlearn 不需要的数据和保持模型效用之间取得了更好的平衡。我们还观察到,与输出通常为无意义的 GA-based 方法相比,基于 NPO 的方法生成更有意义的输出。值得注意的是,在 TOFU 上,基于 NPO 的方法在忘记 50%(或更多)训练数据方面取得了合理的 unlearning 结果,而现有的方法已经在忘记 10% 的训练数据方面存在困难。
Apr, 2024
研究任务不可知偏差减轻对语言建模能力和重新学习社会偏见的影响所面临的挑战,提出了一种新的框架 ProSocialTuning,用于在下游微调中推动模型接近偏见下限,通过已成功去偏的注意力模块的正则化来克服忘记问题。
Jun, 2024
大型语言模型(LLMs)中存在的性别偏见令人担忧,但提出了一种无需访问模型参数的新方法,即通过手动设计的文本前言和职业描述句来有效抑制性别偏见,并且对下游任务性能影响最小。
Sep, 2023
我们提出了衡量实际效能的一组度量标准,并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析,我们得出结论,基于梯度上升的方法在实践中并不完美,强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论,朝着实际和有效的大型语言模型遗忘还有很长的路要走,并需要在这个领域投入更多的努力。
Jun, 2024
探索机器遗忘(MU)在大型语言模型(LLMs)领域中的应用,称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息,旨在消除不良数据影响(例如敏感或非法信息)及相关模型能力,成为 LLMs 生命周期管理中的重要元素,潜在地作为开发生成式 AI 的基础,既安全、安全、可信,又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面,例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外,我们还概述了 LLM 遗忘的有效评估框架,并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。
Feb, 2024
我们研究了如何在大型语言模型中执行遗忘,即忘记不受欢迎的行为,并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益:(1)删除有害回应,(2)根据要求删除受版权保护的内容,以及(3)消除幻觉。我们的工作是探索语言模型遗忘中首个实现,并在设置、目标和评估方面都是先驱。我们还表明,如果从业者只有有限的资源,优先级是停止生成不受欢迎的输出而不是生成理想的输出,那么遗忘尤其吸引人。尽管我们只具有负样本,但我们的消融研究显示,遗忘仍可以在仅使用 2%的计算时间时实现更好的对齐性能比 RLHF。
Oct, 2023