马赛克记忆：大语言模型中模糊复制的版权陷阱

May, 2024

马赛克记忆：大语言模型中模糊复制的版权陷阱

Mosaic Memory: Fuzzy Duplication in Copyright Traps for Large Language Models

Igor Shilov, Matthieu Meeus, Yves-Alexandre de Montjoye

TL;DR基于模糊复制品的版权陷阱在大型语言模型的记忆方面具有挑战性，这对 LLM 的记忆研究提出了一个前所未有的混淆因素，并对（精确的）数据去重作为隐私保护技术的有效性提出了质疑。

Abstract

The immense datasets used to develop large language models (LLMs) often include copyright-protected content, typically without the content creator's consent. copyright traps have been proposed to be injected into

large language models copyright traps fuzzy duplicates memorization data deduplication

发现论文，激发创造

大型语言模型的版权陷阱

利用版权陷阱检测大型语言模型中的版权材料，通过研究版权保护的内容的公平使用和训练模型中的内容是否可被检测，提出了一种实验设计，并发现较长的序列经过重复多次可以可靠地检测出来，并通过研究序列出现次数及困惑度，以及考虑上下文的方法进一步改善了检测能力。

Feb, 2024

LLM 数据推断：你在我的数据集上训练了吗？

大语言模型在现实世界中的大量使用产生了对公司以未经许可的方式在互联网上训练模型的版权纠纷。本文提出了一种新的数据集推断方法来准确识别用于训练大语言模型的数据集，成功地区分了不同子集的 Pile 数据集的训练集和测试集，无任何错误的正例。

Jun, 2024

去重训练数据减缓语言模型的隐私风险

该研究显示，大型语言模型在面对隐私攻击时，其攻击的成功与常用网络爬取的训练集中的重复数据有很大关系，而消除重复数据的方法可以显著提高语言模型的隐私安全性。

Feb, 2022

语言语模与记忆：版权合规的质量和特定性

采用欧洲法律为例，本研究提出了一种系统分析方法， quantifying potential copyright infringements in large language models (LLMs)。通过使用 160 个字符的阈值和模糊文本匹配算法，研究分析了指导微调模型在真实终端用户场景中的行为和特征。该研究结果发现在几种主流的 LLMs 中对版权合规、行为特征和适当拒绝方面表现出巨大差异。

May, 2024

内存触发器：通过词级重复揭示文本到图像生成模型中的记忆化

该研究聚焦于扩散模型中两种不同而未被充分研究的重复现象，即在扩散模型中的冗余复制，通过两个案例研究探讨了这些现象及其影响，旨在对生成模型在各种应用中进行更安全、更负责任的使用做出贡献。

Dec, 2023

Digger: 大型语言模型训练中侵权内容的检测

介绍了一种用于检测和评估用于大型语言模型的训练数据集中的潜在版权书籍内容的详细框架，并提供了每个内容样本包含的可信度估计。通过模拟实验证实了该框架在识别和解决语言模型训练过程中的内容滥用方面的有效性，同时研究了这些数据集中来自名著的可识别引用语的存在。研究结果对于确保版权材料在语言模型开发中的合理使用具有重要意义，强调了在该领域需要更加透明和负责任的数据管理实践。

Jan, 2024

通过学习不相似性策略缓解语言模型中的近似记忆

提出了一种利用强化学习（PPO）的框架，通过负相似度评分来针对近似记忆进行微调，有效地缓解了大型语言模型（LLMs）中的近似记忆问题，在保持生成样本的连贯性和流畅性的同时，具有鲁棒性，并且可以适应各种环境和情况。

May, 2023

通过自提示校准对精调大型语言模型进行实用的成员推断攻击

基于自校准概率变异的成员推断攻击（SPV-MIA）提出了一种新的对严格微调但无过拟合和隐私保护的 LLMs 泄露隐私的成员推断攻击方法。

Nov, 2023

侵权与大型语言模型

本研究通过对语言模型的逐字记忆进行探索，重点关注版权文字的再分发可能性，通过对一系列热门图书和编码问题进行实验，提供了个人估计的语言模型再分发这些材料的程度。总体而言，本研究强调了进一步研究的必要性，以及对版权法规遵守的潜在影响和未来自然语言处理发展的潜在影响。

Oct, 2023

基于采样的伪似然函数在成员推断攻击中的应用

该研究提出了一种基于采样的伪似然方法（SaMIA），通过仅使用大型语言模型生成的文本来计算伪似然，以检测数据泄漏，即使没有似然度，SaMIA 的表现与现有的基于似然度的方法相媲美。

Apr, 2024