机器学习中的记忆化

Nov, 2023

SoK: Memorisation in machine learning

Dmitrii Usynin, Moritz Knolle, Georgios Kaissis

TL;DR在这项研究中，我们统一了关于机器学习中记忆化的定义和观点，讨论了它们与模型泛化的相互作用以及这些现象对数据隐私的影响，并系统化了允许从各种机器学习学习设置中检测记忆化发生或量化记忆化的方法。最后，我们讨论了记忆化在隐私攻击、差分隐私和对抗性行为者等方面的背景。

Abstract

Quantifying the impact of individual data samples on machine learning models is an open research problem. This is particularly relevant when complex and high-dimensional relationships have to be learned from a li

data samples machine learning models memorisation generalisation data privacy

发现论文，激发创造

深度学习中的记忆现象：一份调查

基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响，并提出了系统性框架以及评估方法，通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响，还介绍了由记忆引起的隐私漏洞，忽略现象，以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制，为加强人工智能发展并解决重要的伦理问题提供了独特的认识。

Jun, 2024

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

通用大型语言模型中的记忆化

大型语言模型在记忆方面的挑战和机会，包括隐私、安全、版权等问题，并提出目前的研究方向。

Oct, 2023

何时需要记忆不相关的训练数据以实现高准确度学习？

本研究旨在探讨现代机器学习模型是否必须要记忆所有训练样本中的信息才能够准确学习，对于这个问题，我们提出了两个预测问题的简单变体并进行了探究，结果表明，即使高维度的样本信息熵远高于样本数且其中的大部分信息与任务无关，每个准确的训练算法必须在其预测模型中编码所有有关大元素集合的信息，而这也不受算法或学习模型类别的影响。

Dec, 2020

神经语言模型记忆能力量化

这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而，该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题，因此有减轻该问题的必要，尤其随着模型的规模持续增长，需要采取积极的对策。

Feb, 2022

记忆化 VS 泛化：量化自然语言处理性能评估中的数据泄漏

利用公共数据集来评估自然语言处理（NLP）中最先进方法的有效性和普适性时，训练和测试数据集之间的重叠会导致结果被高估，为了评估这些方法在实际场景中的性能，我们发现在用于评估 NLP 任务的几个公开数据集中，存在训练数据泄漏到测试数据中的情况，对此进行研究以评估泄漏对模型记忆与泛化能力的影响。

Feb, 2021

机器学习模型过于记忆

机器学习中的敏感数据可能会 “记忆” 在训练模型中，即使采用标准技术如正则化和数据扩充等方法，从中还是能够提取训练集的子集。

Sep, 2017

概率深度生成模型中的记忆化

该论文研究了深度生成模型中可能出现的记忆问题，提供了一种衡量记忆现象的方式，并探讨了限制记忆的几种策略。

Jun, 2021

学习需要记忆吗？一个长尾故事的简短描绘

本文提出了对于自然数据分布来说，必须要对标签进行记忆才能达到接近最优的泛化误差的第一概念解释和理论模型。该模型支持最近几项实证研究的结果，发现对于长尾子群分布的数据采样，标签的记忆是必要的，而图像和文本数据也被证明是长尾的。我们的研究不仅可能量化在学习过程中限制记忆的代价，而且还能解释隐私和模型压缩对不同子组的影响不同的不同效应。

Jun, 2019

大型图像分类器记忆了什么？

现代神经网络的成功引发了对记忆和泛化之间关系的研究：过参数化的模型能够很好地进行泛化，尽管它们能够完美地拟合（记忆）完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算，全面分析了神经模型大小对记忆能力的影响，结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹：较大模型下大多数样本减少了记忆，而部分样本呈现帽状或者递增型记忆。此外，我们发现知识蒸馏作为一种有效且流行的模型压缩技术，往往抑制记忆，同时提高了泛化能力，尤其是对于记录递增轨迹的示例，蒸馏技术能够有效提高泛化能力。

Oct, 2023