神经语言模型中的反事实记忆

Dec, 2021

Counterfactual Memorization in Neural Language Models

Chiyuan Zhang, Daphne Ippolito, Katherine Lee, Matthew Jagielski, Florian Tramèr...

TL;DR本文提出了一种源于心理学中人类记忆分类的对抗性记忆学习方法，进行神经语言模型的训练数据筛选，以减少其对训练数据中的敏感信息的记忆，并探究其训练样本中的对抗性记忆，从而提供一种可用于测试数据及其生成的文本来源推定的直接证据。

Abstract

Modern neural language models widely used in tasks across NLP risk memorizing sensitive information from their training data. As models continue to scale up in parameters, →

neural language models memorization counterfactual memorization training data source of memorization

发现论文，激发创造

语言模型防止机械背诵，误导隐私保障

通过 Bloom 过滤器与 ALL-CAPITAL text 跨越数据记忆的问题，阐述了训练数据的记忆问题与风险，并讨论了针对神经语言模型中数据记忆的潜在替代定义和本质难题。

Oct, 2022

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

记忆曲线的因果估计

该研究提出了一种新的、有原则的、高效的方法来估计语言模型中的记忆化，该方法利用经济学中的差异法设计，通过在训练过程中观察模型在一小部分实例上的行为，刻画了模型的记忆化特征，并发现较大模型的记忆化更强、更持久，受数据顺序和学习率的影响，并且较大模型的记忆化趋势可以从较小模型中预测。

Jun, 2024

大型语言模型中的紧急和可预测记忆

通过对 Pythia 模型套件的记忆行为进行度量和分析，发现中间检查点是模型记忆行为的更好预测因素，同时提供了有关模型和数据记忆得分分布的新颖发现

Apr, 2023

语言模型中事实性回忆机制的表征

利用头部归因方法控制模型行为，将模型表现局部化，并提供了一种概念验证方法，展示如何在运行时动态地控制模型行为。

Oct, 2023

反事实推理：测试语言模型对假设场景的理解

通过调查五种预训练语言模型在特殊条件下进行的逆向推理，发现这种逆向推理主要受到基于单词关联的影响，只有 GPT-3 能够展现对语言细微差别的敏感性。

May, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

反事实推理：语言模型在因果理解中是否需要世界知识？

本文通过使用反事实条件句，利用心理语言学实验和更大规模的数据集，对比了多种流行的预训练语言模型中的反事实预测，并发现大多数模型主要受简单的词汇线索驱动。当控制世界知识和词汇线索效应时，只有 GPT-3 在反事实细微差别的语言基础知识上显示出敏感性。

Dec, 2022

背诵、重建、回忆：语言模型中的记忆作为多层次现象

以分类方式解析记忆化过程，并构建预测模型，发现不同因素根据分类方式对记忆化概率产生不同影响。

Jun, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023