PaCoST：大型语言模型中用于基准污染检测的配对置信度显著性测试

Jun, 2024

PaCoST：大型语言模型中用于基准污染检测的配对置信度显著性测试

PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models

Huixuan Zhang, Yun Lin, Xiaojun Wan

TL;DR针对大型语言模型的基准污染问题，本研究提出了一种可靠的污染检测方法 PaCoST，并验证了其有效性。实验发现几乎所有测试的模型和基准数据都存在不同程度的污染，因此呼吁发展新的语言模型评估方法。

Abstract

large language models (LLMs) are known to be trained on vast amounts of data, which may unintentionally or intentionally include data from commonly used benchmarks. This inclusion can lead to cheatingly high scores on model leaderboards, yet result in disappointing performance in real-

large language models benchmark contamination pacost confidence significance testing llm evaluation methods

发现论文，激发创造

ConStat：大型语言模型中基于性能的污染检测

公共基准测试、数据污染、性能、检测方法、ConStat

May, 2024

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

在黑盒语言模型中证明测试集污染

通过无需预训练数据或模型权重的方法，我们可以提供对语言模型测试集污染的可证明保证，通过对典型排序的基准数据集的似然性进行比较，我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中，我们的测试发现很少有普遍污染的证据。

Oct, 2023

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

现代大语言模型中数据污染问题研究

我们通过检测数据污染并提出 “Testset Slot Guessing” 方法，发现商业化的 LLM 在评估基准中有明显的性能改进，并呼吁在该领域使用更强大的评估方法和基准。

Nov, 2023

重新思考以重新表述的样本为基础的语言模型基准和污染问题

大型语言模型的数据污染问题及其对应的检查与净化方法

Nov, 2023

黑盒 LLM 的数据污染校准

通过 Polarized Augment Calibration 方法以及新的数据集，本研究提出检测污染数据和减少污染影响的综合方法，扩展了 MIA 方法来检测训练数据，并通过实验结果证明其在数据污染检测方面的优越性。

May, 2024

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

LLMs 内的时间旅行：追踪大型语言模型中的数据污染

在理解大型语言模型（LLM）对其他任务的有效性中，数据污染（即，在训练数据中存在来自下游任务的测试数据）可能是一个重要问题。我们提出了一种简单但有效的方法来识别 LLMs 中的数据污染，该方法通过识别来自小型随机样本的个别实例中的潜在污染，然后评估整个数据集分区是否受到了污染。

Aug, 2023

泛化还是记忆：大型语言模型的数据污染与可信评估

我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD，并通过修正 LLMs 输出分布的方法 TED，有效地检测和减轻数据污染的影响。实验结果表明，CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8％-30.2％，TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9％。实际应用中，我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。

Feb, 2024