做个金鱼，不要死记硬背！减轻生成型 LLMs 中的死记硬背现象

Jun, 2024

做个金鱼，不要死记硬背！减轻生成型 LLMs 中的死记硬背现象

Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Abhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi...

TL;DR通过引入一种名为金鱼损失的微妙修改，我们减轻了大型语言模型记忆和重复其训练数据所带来的隐私和版权风险。我们进行了大规模实验，训练了数十亿规模的 Llama-2 模型，并证明了可提取的记忆量显著减少，同时对下游基准测试的影响几乎没有。

Abstract

large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate →

large language models memorization goldfish loss privacy copyright risks

发现论文，激发创造

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

语言模型防止机械背诵，误导隐私保障

通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题，阐述了训练数据的记忆问题与风险，并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。

Oct, 2022

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

通过学习不相似性策略缓解语言模型中的近似记忆

提出了一种利用强化学习（PPO）的框架，通过负相似度评分来针对近似记忆进行微调，有效地缓解了大型语言模型（LLMs）中的近似记忆问题，在保持生成样本的连贯性和流畅性的同时，具有鲁棒性，并且可以适应各种环境和情况。

May, 2023

预测文本语言模型的种植和减轻记忆内容

通过测试效用一系列隐私保护技术来缓解大型语言模型不经意地记忆保密训练数据的风险，实验表明，差分隐私有可靠的隐私保护效果，但是性能代价较大。

Dec, 2022

大型语言模型通过自蒸馏和有意识想象进行非记忆化

使用一种名为 “刻意想象” 的新方法，在大型语言模型（LLM）的条件下有效地取消已学习的文本，并在进行生成任务和自然语言理解（NLU）任务时保留其功能，从而解决 LLM 中私密和敏感数据的挑战。

Feb, 2024

从（生产）语言模型中可扩展地提取训练数据

本文研究了可提取性记忆：对一个机器学习模型进行查询，对其训练数据进行高效提取的训练数据，而不需要事先了解训练数据集。我们表明，对于开源语言模型如 Pythia 或 GPT-Neo，半开放模型如 LLaMA 或 Falcon，以及闭源模型如 ChatGPT，对手可以提取出几千兆字节的训练数据。现有的文献中的技术足以攻击未对齐模型；为了攻击已对齐的 ChatGPT，我们开发了一种新的分歧攻击，使模型偏离其聊天机器人风格的生成，并以比正常行为时高 150 倍的速率发出训练数据。我们的方法显示，实践中的攻击可以恢复比以前认为的数据更多，并揭示当前的对齐技术不能消除记忆。

Nov, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024