基于深度学习和深度神经网络的记忆现象对模型泛化性、安全性和隐私造成了影响,并提出了系统性框架以及评估方法,通过综合文献回顾探索了深度神经网络记忆行为对安全隐私的影响,还介绍了由记忆引起的隐私漏洞,忽略现象,以及它们在噪声标签学习、隐私保护和模型增强等应用中的潜在机制,为加强人工智能发展并解决重要的伦理问题提供了独特的认识。
Jun, 2024
该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响,重现了重复次数对记忆序列遗忘概率的对数标度关系,并发现即使没有后续接触,经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上,这对数据隐私具有挑战性。为此,我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。
大型语言模型在记忆方面的挑战和机会,包括隐私、安全、版权等问题,并提出目前的研究方向。
Oct, 2023
本研究旨在探讨现代机器学习模型是否必须要记忆所有训练样本中的信息才能够准确学习,对于这个问题,我们提出了两个预测问题的简单变体并进行了探究,结果表明,即使高维度的样本信息熵远高于样本数且其中的大部分信息与任务无关,每个准确的训练算法必须在其预测模型中编码所有有关大元素集合的信息,而这也不受算法或学习模型类别的影响。
Dec, 2020
这篇研究论文描述了大语言模型 (LMs) 如何通过增加模型容量、重复数据示例次数以及提示模型的上下文数量等因素持续增长来记忆其训练数据的程度。然而,该记忆过程会导致隐私泄露、降低数据质量并且存在不公平性问题,因此有减轻该问题的必要,尤其随着模型的规模持续增长,需要采取积极的对策。
Feb, 2022
利用公共数据集来评估自然语言处理(NLP)中最先进方法的有效性和普适性时,训练和测试数据集之间的重叠会导致结果被高估,为了评估这些方法在实际场景中的性能,我们发现在用于评估 NLP 任务的几个公开数据集中,存在训练数据泄漏到测试数据中的情况,对此进行研究以评估泄漏对模型记忆与泛化能力的影响。
Feb, 2021
机器学习中的敏感数据可能会 “记忆” 在训练模型中,即使采用标准技术如正则化和数据扩充等方法,从中还是能够提取训练集的子集。
Sep, 2017
该论文研究了深度生成模型中可能出现的记忆问题,提供了一种衡量记忆现象的方式,并探讨了限制记忆的几种策略。
Jun, 2021
本文提出了对于自然数据分布来说,必须要对标签进行记忆才能达到接近最优的泛化误差的第一概念解释和理论模型。该模型支持最近几项实证研究的结果,发现对于长尾子群分布的数据采样,标签的记忆是必要的,而图像和文本数据也被证明是长尾的。我们的研究不仅可能量化在学习过程中限制记忆的代价,而且还能解释隐私和模型压缩对不同子组的影响不同的不同效应。
Jun, 2019
现代神经网络的成功引发了对记忆和泛化之间关系的研究:过参数化的模型能够很好地进行泛化,尽管它们能够完美地拟合(记忆)完全随机的标签。本文通过对图像分类基准上 ResNet 的记忆度量进行实证计算,全面分析了神经模型大小对记忆能力的影响,结果发现不同模型大小的训练样本表现出意想不到的多样化记忆轨迹:较大模型下大多数样本减少了记忆,而部分样本呈现帽状或者递增型记忆。此外,我们发现知识蒸馏作为一种有效且流行的模型压缩技术,往往抑制记忆,同时提高了泛化能力,尤其是对于记录递增轨迹的示例,蒸馏技术能够有效提高泛化能力。