大型语言模型中基准测试的基准泄露

Apr, 2024

大型语言模型中基准测试的基准泄露

Benchmarking Benchmark Leakage in Large Language Models

Ruijie Xu, Zengzhi Wang, Run-Ze Fan, Pengfei Liu

TL;DR利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏，揭示了大规模语言模型在数学推理领域存在的数据误用问题，并提出了关于模型文档、基准设置和未来评估的几点建议，其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。

Abstract

Amid the expanding use of pre-training data, the phenomenon of benchmark dataset leakage has become increasingly prominent, exacerbated by opaque training processes and the often undisclosed inclusion of supervised data

pre-training data benchmark dataset leakage supervised data large language models mathematical reasoning

发现论文，激发创造

一点点泄漏将毁掉一艘巨舰：从头到尾的大语言模型透明度调查

大型语言模型存在泄漏风险，可能泄漏个人信息、侵犯版权以及评估数据集，本文通过实验调查泄漏数据比例与输出速率、检测性能之间的关系，并提出了一种自检测方法，结果显示即使训练数据中含有少量泄漏数据，大型语言模型仍能产生大量的泄漏信息，而我们的自检测方法表现优于现有的方法。

Mar, 2024

不要让您的 LLM 成为一个评估基准作弊者

大型语言模型的评估常常会受到不适当使用评估基准和误导性解读评估结果等问题的影响。本研究通过大量实验发现，评估基准泄漏会极大地提高评估结果，从而导致对模型性能的不可靠评估。最后，为大型语言模型的开发者和基准维护者提出了一些建议。

Nov, 2023

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

私密基准测试以防止污染并提高对 LLM 的比较评估

私密基准测试是解决基准测试数据被污染或泄露的问题的解决方案，并且可以保持模型的权重私密，以确保私密基准测试的高质量。

Mar, 2024

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

P-Bench: 语言模型多层隐私评估基准

我们提出了 P-Bench，这是一个用于经验和直观地量化语言模型的隐私泄漏的多角度隐私评估基准，并对各种隐私保护语言模型进行公平和直观的评估。

Nov, 2023

数据污染与评估不端行为在闭源语言模型中的重复现象

使用 OpenAI 的 GPT-3.5 进行了首次系统分析，揭示其在数据污染方面的问题，发现模型在发布后一年内泄露了大约 470 万个样本来自 263 个基准，并记录了被评审论文中出现的不公平或缺失的基准比较和可复现性问题。

Feb, 2024

对预训练数据检测的语言模型探究

大语言模型（LLMs）在展示其出色的能力的同时，也引发了由于隐私问题和基准数据集泄露所导致的数据污染问题。因此，在预训练阶段检测污染是否有 LLM 在目标文本上进行了预训练变得至关重要。最近的研究关注生成的文本并计算困惑度，但这些都是表面特征而不可靠。本研究提出利用探测技术来检测预训练数据，通过检查模型的内部激活状态。我们的方法简单且有效，并实现了更可靠的预训练数据检测。此外，我们还提出了 ArxivMIA 基准，它包括来自计算机科学和数学类别的 arxiv 摘要。我们的实验证明我们的方法胜过所有基准，实现了 WikiMIA 和 ArxivMIA 的最新性能，并通过额外的实验验证了其有效性。

Jun, 2024