干净评估：对受污染的大型语言模型的清洁评估

Nov, 2023

干净评估：对受污染的大型语言模型的清洁评估

CLEAN-EVAL: Clean Evaluation on Contaminated Large Language Models

Wenhong Zhu, Hongkun Hao, Zhiwei He, Yunze Song, Yumeng Zhang...

TL;DR为了解决大型语言模型中的数据污染和评估问题，我们提出了一种名为 Clean-Eval 的方法，利用语义检测器筛选出生成的低质量样本，从候选集中选择出与原始污染数据在语义上相似但表达不同的最佳候选来形成一个新的基准，从而在少样本学习和微调场景下还原了受污染的语言模型的实际评估结果。

Abstract

We are currently in an era of fierce competition among various large language models (LLMs) continuously pushing the boundaries of benchmark performance. However, genuinely assessing the capabilities of these LLMs has become a challenging and critical issue due to potential

large language models data contamination clean-eval evaluation benchmark

发现论文，激发创造

KIEval：大型语言模型的基于知识的交互评估框架

KIEval 是一个知识驱动的交互式评估框架，通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色，进行动态抗干扰评估，以确定模型的回答是否仅仅是基准答案的回忆，还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的七个领先 LLM 进行的大量实验证实了 KIEval 的有效性和泛化性，同时揭示了数据污染对模型在现实世界的适用性和理解力没有贡献甚至产生负效应的事实，并且现有的 LLM 数据干扰检测方法只能在预训练阶段识别干扰而无法在监督微调期间进行识别。

Feb, 2024

数据污染能够跨越语言障碍

开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式，可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。

Jun, 2024

重新思考以重新表述的样本为基础的语言模型基准和污染问题

大型语言模型的数据污染问题及其对应的检查与净化方法

Nov, 2023

在语言模型评估中避免数据污染：使用最新材料进行动态测试构建

利用最新的文本构建不受数据污染的阅读理解评估方法 LatestEval，通过仅使用最近时间窗口内发布的文本，并避免与预训练语言模型的训练语料库重叠，从而鼓励模型基于剩余的上下文推断答案而不是简单地复制粘贴，实验表明，在 LatestEval 上，语言模型显示出可忽略的记忆行为，相较于之前的基准测试，减少了数据污染风险并且评估更具鲁棒性。

Dec, 2023

泛化还是记忆：大型语言模型的数据污染与可信评估

我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD，并通过修正 LLMs 输出分布的方法 TED，有效地检测和减轻数据污染的影响。实验结果表明，CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8％-30.2％，TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9％。实际应用中，我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。

Feb, 2024

时间视角下的数据污染

大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析，结果表明数据污染现象显著存在，这项研究为研究现代模型中数据污染问题的严格分析奠定了基础，并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。

Oct, 2023

自然语言处理评估中的难题：从需要对每个基准进行 LLM 数据污染度测量谈起

该论文讨论了自然语言处理任务的评估存在的问题，并提出了数据污染以及针对数据污染的自动检测和提示措施。

Oct, 2023

评估语言模型代码生成能力时的污染量量化

该研究综合研究了大型语言模型在代码生成任务中的数据污染问题，分析了常见代码生成基准测试与预训练语料之间的重叠程度，并揭示了类似训练解决方案出现时模型性能显著提高的现象，同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。

Mar, 2024

大型语言模型的基准数据污染：调查

大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域，但也引发了一个重大问题，即基准数据污染（BDC）。本文回顾了 LLM 评估中复杂的 BDC 挑战，并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向，突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。

Jun, 2024

利用大语言模型学习低资源语言的翻译质量评估

使用大型语言模型，无需人工注释，将合成数据集混合到现有数据集中，可以提高低资源语言的 BLEURT 模型性能。

Feb, 2023