一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

Mar, 2024

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

A Little Leak Will Sink a Great Ship: Survey of Transparency for Large Language Models from Start to Finish

Masahiro Kaneko, Timothy Baldwin

TL;DR大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Abstract

large language models (LLMs) are trained on massive web-crawled corpora. This poses risks of leakage, including personal information,

large language models leakage personal information copyrighted texts benchmark datasets

发现论文，激发创造

大型语言模型中基准测试的基准泄露

利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。

Apr, 2024

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

揭开潜在记忆：评估大型语言模型中的数据泄露和记忆模式

该研究通过评估训练数据的统计特征对模型中的记忆编码产生的影响，重现了重复次数对记忆序列遗忘概率的对数标度关系，并发现即使没有后续接触，经过多次训练的数据仍然可以在训练过程中被揭示。由于这些潜在的记忆序列可能隐藏在模型的最终检查点上，这对数据隐私具有挑战性。为此，我们开发了一种通过考虑交叉熵损失来揭示这些潜在记忆序列的诊断测试。

Jun, 2024

自然语言模型更新的信息泄漏分析

本文提出了新的度量标准 ——“差分得分” 和 “差分排名”，并使用这些度量标准对使用不同数据集和配置的模型的泄漏进行了分析，发现了语言模型在更新时的隐私泄漏问题，提出了缓解策略，并对其效果进行评估。

Dec, 2019

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

LLM 是否能保守秘密？通过上下文完整理论测试语言模型的隐私影响

通过提出 ConfAIde 基准测试，我们的实验结果表明即使在使用了隐私保护提示或思维链推理后，如 GPT-4 和 ChatGPT 这样的最先进模型仍然有 39% 和 57% 的概率在具体情境中泄露私人信息，这凸显了探索基于推理和心智理论的新型推理时隐私保护方法的迫切需要。

Oct, 2023

大型语言模型的关联能力量化及其对隐私泄露的影响

该研究探索了大型语言模型的关联能力，揭示了影响其关联信息能力的因素。研究发现随着模型规模的扩大，它们关联实体 / 信息的能力增强，但在关联常识知识与 PII 方面存在着明显的差距。这些发现强调了 LLM 对 PII 机密性的潜在威胁，特别是随着它们继续扩大规模和能力的过程中。

May, 2023

LLM 污染程度调查及 LLMSanitize 库

LLMs 应用的规模不断扩大，但同时也带来了污染问题，而模型的完整性对业务应用和筹款至关重要。本文调查了 LLMs 污染问题的最新研究，并通过开源 Python 库 LLMSanitize 实现了主要污染检测算法，以帮助社区跟踪 LLMs 的污染水平。

Mar, 2024