- 羊驼对抗维昆纳:利用 LLMs 揭示 LLMs 的记忆
我们介绍了一种黑盒提示优化方法,利用攻击者 LLM 代理来揭示受害者代理中比直接使用训练数据作为提示目标模型所揭示的更高水平的记忆,我们使用迭代的拒绝抽样优化过程来找到具有两个主要特征的基于指令的提示,即 (1) 最小程度地与训练数据重叠, - 基于大型语言模型中的文本、概率和隐藏状态的记忆洞察
通过比较存储和非存储之间的差异,我们提出了一种名为 ROME 的新方法,用于研究大型语言模型的记忆化能力。实验结果显示,包括词长、词性、词频、平均值和方差在内的多方面因素存在差异。
- 揭示隐私、记忆和输入曲率之间的联系
通过推导上限并利用 CIFAR 和 ImageNet 数据集的深度模型进行验证,本文不仅探索了 DNN 中记忆化与输入损失曲率之间的联系,还建立了差分隐私、记忆化和输入损失曲率之间的理论联系,进一步证实了理论预测和实践结果之间的强相关性。
- 随机凸优化的信息复杂性:泛化与记忆的应用
通过研究随机凸优化(SCO)中记忆和学习之间的相互作用,我们使用条件互信息(CMI)的框架精确刻画了学习算法的准确性和 CMI 之间的权衡关系,回答了 Livni(2023 年)提出的一个开放问题。我们进一步设计了一个对特定的 SCO 问题 - 视觉语言模型中的 Déjà Vu 记忆
Vision-Language Models have been widely used with downstream applications, and this paper proposes a method for measurin - ReLU 与 Step 网络在浮点运算下的表现能力
利用浮点数和操作,研究了神经网络的表达能力,得出了使用二进制阈值单元或 ReLU 的神经网络可以记忆任何有限的输入 / 输出对并且可以在误差范围内近似任何连续函数的结论。
- LLM 们幻想本体工具吗?
大型语言模型能够部分地记忆本体论概念,并且记忆程度与概念在网络上的普及程度成正比。本研究还提出了新的度量方法,通过测量在不同提示重复、查询语言和确定性程度下产生的输出的一致性来估计语言模型中本体论信息的记忆程度。
- ICLR自监督学习中的记忆提高了下游泛化
我们提出了 SSLMem,一个用于在自监督学习中定义记忆化的框架,通过对数据点及其增强视图返回的编码器之间表示的对齐差异进行比较,揭示了大规模数据集和强增强的自监督学习中存在高度记忆化的数据点,并且这种记忆化对于编码器在不同下游任务中实现更 - 社会学习:朝着与大型语言模型进行合作学习
在大型语言模型(LLMs)中,介绍了 “社交学习” 的框架,其中模型通过自然语言以隐私保护的方式共享知识。我们提出并评估了两种 LLMs 之间的知识传递方法,第一种情景中,模型生成抽象提示用于教授任务,而我们的第二种方法中,模型通过生成合成 - 文本图像生成模型中(非)预期记忆的理解
多模态机器学习中的文本到图像模型,如 Stable Diffusion 和 DALL-E 3,以将文本转化为详细图像而变得重要。本文介绍了一种专门针对文本到图像模型的记忆定义,并根据用户期望将其分为三种不同类型。我们对意图记忆和非意图记忆之 - 内存触发器:通过词级重复揭示文本到图像生成模型中的记忆化
该研究聚焦于扩散模型中两种不同而未被充分研究的重复现象,即在扩散模型中的冗余复制,通过两个案例研究探讨了这些现象及其影响,旨在对生成模型在各种应用中进行更安全、更负责任的使用做出贡献。
- 最小描述长度 Hopfield 网络
关于现代霍普菲尔德网络(MHN),我们展示了大容量的记忆会削弱泛化机会,并提供了一种优化这种权衡的解决方案。该解决方案依赖于最小描述长度(MDL),在训练过程中确定存储哪些记忆以及存储多少记忆。
- 深入理解抽奖票:抽奖票加速深入理解
通过抽象算法(Lottery Ticket Hypothesis)从完美记忆到完美泛化的过渡阶段,找到网络参数权重的关键性指标,有效描述了学习模式的转变。
- 通用大型语言模型中的记忆化
大型语言模型在记忆方面的挑战和机会,包括隐私、安全、版权等问题,并提出目前的研究方向。
- 大规模 ASR 模型中的非预期记忆及其缓解方法
通过简化的审计方法,我们展示了最先进的自动语音识别模型中的记忆化现象,并且证明通过梯度剪裁可以减轻记忆化对速度增强训练样本的影响。
- 为什么要训练更多?通过记忆进行有效和高效的成员推断
该研究通过选择具有高记忆得分的样本,旨在最大化攻击成功的同时,将阴影模型的数量减少近两个数量级,并且通过了全面的实验验证。
- 探索微调语言模型中的记忆化
本文研究了 LLMs 在 pre-training 和 fine-tuning 阶段的记忆化行为及其对隐私和版权的影响,并通过对不同任务的实验验证了 fine-tuned 记忆化在任务间的差异性,进一步提出了多任务 fine-tuning - 机器学习中的一对一可区分性
我们引入了一个新的分析框架来量化在机器学习算法的训练集中包含一些数据点之后,输出分布的变化,我们将这一概念定义为留一法区分度(LOOD)。我们使用高斯过程模型机器学习算法的随机性,并通过对会员推理攻击使用信息泄露进行广泛的实证分析验证 LO - 通过离开一个样本集合在语言模型中遗忘私密文本序列
利用教师 - 学生框架和新的留一出集成方法,我们在语言模型中删除个人信息,在隐私与实用性之间实现卓越的平衡。
- ACL预训练语言模型是否具备本体知识的认知与理解能力?
探索预训练语言模型(PLMs)是否了解本体知识以及它们在知识存储方面的语义理解和逻辑推理能力。