- 大型语言模型中实体级记忆的量化与分析
大型语言模型通过精心设计的提示可以提取出其训练数据,这也带来了隐私风险。为了评估潜在的隐私风险,需要量化语言模型的记忆能力。本文提出了一个细粒度、基于实体级别的定义来量化记忆,并提供了一种从自回归语言模型中高效提取敏感实体的方法。实验结果显 - 基于概率波动的生成模型成员推断攻击
我们提出了一种概率波动评估成员推理攻击(PFAMI),通过分析给定记录周围的整体概率波动趋势来检测这些趋势,从而推断成员身份的黑盒式攻击,实验证明 PFAMI 相对于最佳基线可以提高攻击成功率(ASR)约 27.9%。
- ICML从数据泄露和遗忘中对法律的启示
大型语言模型(LLMs)在隐私方面存在关注,因为它们会记忆训练数据(包括个人可识别信息(PII)如电子邮件和电话号码),并在推理过程中泄露。现有工作关注度较低,本研究表明精调模型不仅会泄露其训练数据,还会泄露在预训练阶段记忆的预训练数据(和 - ICML神经网络可否进行本地化记忆?
通过三种实验方法,我们发现记忆化现象发生在模型的少数层中,而不是最后的几层;其次,我们发现记忆化往往局限于模型的少数神经元或通道;基于这些发现,我们提出了一种新的 dropout 方法,通过对特定的神经元进行 dropout,我们能够减少记 - 像人类驾驶:用大语言模型重新思考自动驾驶
本文探讨使用大型语言模型(LLM)作为自动驾驶系统的潜力,认为传统优化和模块化的自动驾驶系统无法应对复杂情况,提出了理想的自动驾驶系统应具备的推理、解释和记忆三个关键能力,并通过实验证明 LLM 在自动驾驶中具有卓越的推理能力为人类化自动驾 - 生成人工智能的创新前沿:管理新颖性和实用性的平衡
本文通过人类创造力文献的启示,探索生成人工智能系统中新奇和实用之间的最佳平衡,提出了包括领域特定分析、数据和迁移学习、用户喜好和定制、自定义评估指标和协作机制在内的框架,旨在在特定领域内生成既新颖又有用的内容。
- 推理任务中大型语言模型产生幻觉的来源
该论文通过对多个大型语言模型的行为研究发现,训练数据的记忆和频率偏好是导致生成式大型语言模型产生幻觉的两个主要因素,这些模型在自然语言推断等应用任务中表现出明显的问题。
- PreCog: 探索预训练语言模型中记忆和性能之间的关系
本文提出了一种用于评估预训练模型记忆能力的指标 PreCog,并研究了记忆能力与 BERT 在下游任务中表现之间的相关性。实验结果表明,高度记忆化的例子被更好地分类,表明记忆化是 BERT 成功的关键因素之一。
- 通过学习不相似性策略缓解语言模型中的近似记忆
提出了一种利用强化学习(PPO)的框架,通过负相似度评分来针对近似记忆进行微调,有效地缓解了大型语言模型(LLMs)中的近似记忆问题,在保持生成样本的连贯性和流畅性的同时,具有鲁棒性,并且可以适应各种环境和情况。
- 大型语言模型中的紧急和可预测记忆
通过对 Pythia 模型套件的记忆行为进行度量和分析,发现中间检查点是模型记忆行为的更好预测因素,同时提供了有关模型和数据记忆得分分布的新颖发现
- 大型语言模型输出的评估:话语和记忆
通过对九个流行的大型语言模型的各种生成输出进行经验评估,发现输出中包含的记忆文本比例、独特文本比例和总体输出质量存在关联性,其中高质量的输出中包含的记忆文本比例较高。并提出缓解策略和质量文本的评估方法。
- Pythia:用于分析大规模语言模型在训练和扩展方面的工具集
介绍了 16 个大小从 70M 到 12B 参数的大型语言模型套件 Pythia,旨在促进在语言模型和训练动态中的研究,包括记忆化、少样本性能的术语频率效应和减少性别偏见等方面的结果。
- Koala: 一种基于预训练语料库量化重叠的索引
本文介绍了一个名为 Koala 的工具,可以用于对大规模预训练数据进行搜索和分析,以帮助研究者进行有关大型语言模型的前置训练数据的分析,并且该工具提供了一个框架可以用于研究当前和未来的基准以及进行大型语言模型的结果记忆程度的评估。
- ResMem:学习可学之处,记忆他处
通过在神经网络中增加记忆机制,本文提出了 ResMem 算法,可以通过拟合模型残差的方式来显式地记忆训练标签,该算法证明可以有效提高模型的泛化性能。
- 使用 ReLM 验证大型语言模型
本文介绍了用标准正则表达式验证和查询 LLMs 的 ReLM 系统,其结果表明 ReLM 的最高系统效率是现有方法的 15 倍,数据效率是现有方法的 2.5 倍,并且具有竞争力和较高的统计学和提示调整覆盖率。
- EMNLP大型预训练语言模型是否泄露了你的个人信息?
本文分析了预训练语言模型(PLMs)是否容易泄漏个人信息,并发现这些模型确实由于记忆而泄漏个人信息。但由于这些模型在关联性方面较弱,因此攻击者提取特定个人信息的风险较低,希望这项工作能够帮助社区更好地了解 PLMs 的隐私风险,并为使 PL - 大型语言模型培训动态分析:防止过度拟合的记忆训练
研究了大型语言模型的训练和记忆过程,在不同设置下测量了数据集大小、学习率和模型大小对其记忆能力的影响,证明更大的语言模型更快地记忆训练数据,更容易在训练过程中避免过度拟合。同时,分析了不同词性的记忆动态,发现名词和数字是模型记忆单个训练例子 - 语言模型融合 ASR 中无意记忆的检测
通过黑匣子查询语言模型融合的语音识别器,检测语言模型训练数据中个别文本序列的记忆化现象,并通过梯度裁剪的语言模型训练方法降低此类记忆化对隐私的影响,同时不影响模型整体质量。
- ACL数据污染:从记忆到利用
本研究根据预训练语言模型在联合语料库上进行分析,发现在一些情况下存在信息的利用,但在其他情况下,模型只是纯粹地记住了数据,但并没有利用学到的知识,这两种情况受到了多重因素的影响,如污染数据的数量和模型的大小,在区分语言理解和数据利用方面,对 - 神经网络中唯一私有特征的非预期记忆度量
通过对图像分类的神经网络进行实验,我们发现神经网络即使在训练数据中只出现了一次,也不经意地会记住独特的特征。我们开发了一个得分来估计模型对独特特征的敏感性,结果表明神经网络对于训练数据中罕见的隐私信息都具有风险。