数据污染与评估不端行为在闭源语言模型中的重复现象

Feb, 2024

数据污染与评估不端行为在闭源语言模型中的重复现象

Leak, Cheat, Repeat: Data Contamination and Evaluation Malpractices in Closed-Source LLMs

Simone Balloccu, Patrícia Schmidtová, Mateusz Lango, Ondřej Dušek

TL;DR使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Abstract

natural language processing (NLP) research is increasingly focusing on the use of large language models (LLMs), with some of the most popular ones being either fully or partially closed-source. The lack of access

natural language processing large language models data contamination openai's gpt-3.5 evaluation malpractices

发现论文，激发创造

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

LLM 污染程度调查及 LLMSanitize 库

LLMs 应用的规模不断扩大，但同时也带来了污染问题，而模型的完整性对业务应用和筹款至关重要。本文调查了 LLMs 污染问题的最新研究，并通过开源 Python 库 LLMSanitize 实现了主要污染检测算法，以帮助社区跟踪 LLMs 的污染水平。

Mar, 2024

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

Llama 系列模型的开源数据污染报告

该研究报告介绍了 Llama 系列模型的开源数据污染报告，对六个热门的多项选择问答基准进行了分析，量化了它们与 Llama 的训练集的重叠情况。发现基准中存在 1% 至 8.7% 不同程度的污染。比较还显示，与干净的子集相比，Llama 模型在被污染的子集上可以获得超过 5% 的更高准确率。数据和代码可在链接中获得。

Oct, 2023

全球数据限制：大型语言模型中的道德与效果挑战

本文研究了大规模语言模型（LLM）获取高质量训练数据所面临的多方面挑战，包括数据稀缺、偏差以及低质量内容，并通过使用 GPT-4 和 GPT-4o 进行一系列评估，证明这些数据限制对模型性能和伦理对齐的不利影响。我们提出并验证了一些旨在提高数据质量和模型稳健性的缓解策略，包括高级数据过滤技术和伦理数据收集实践。我们的发现强调了开发 LLM 时需要积极考虑数据限制的有效性和伦理影响，以促进创建更可靠和普遍适用的人工智能系统。

Jun, 2024

探索 ChatGPT 的人工智能伦理：一项诊断分析

通过对 OpenAI 的 ChatGPT 进行定性研究，发现大规模语言模型的伦理风险主要包括偏见性和毒性，当前的基准测试无法解决这些问题，为了避免语言模型应用中出现伦理风险，需要制定可靠的基准测试和实施设计。

Jan, 2023