ConStat:大型语言模型中基于性能的污染检测
大型语言模型在基准测试中的性能经常影响用户对模型的偏好。然而,这些模型训练所使用的大量数据可能会无意中与公共基准测试数据混合,从而损害性能测量结果。尽管最近开发了一些污染检测方法来解决这个问题,但它们忽视了恶意模型提供者有意回避检测的可能性。我们认为这种情况非常重要,因为它对公共基准测试的可靠性产生了怀疑。为了更严谨地研究这个问题,我们提出了对模型提供者和污染检测方法进行分类。这揭示了现有方法的漏洞,我们利用了一种简单但有效的污染技术(EAL),它能大幅提高基准测试性能,并完全回避当前的检测方法。
Feb, 2024
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
Jun, 2024
针对大型语言模型的基准污染问题,本研究提出了一种可靠的污染检测方法 PaCoST,并验证了其有效性。实验发现几乎所有测试的模型和基准数据都存在不同程度的污染,因此呼吁发展新的语言模型评估方法。
Jun, 2024
该研究综合研究了大型语言模型在代码生成任务中的数据污染问题,分析了常见代码生成基准测试与预训练语料之间的重叠程度,并揭示了类似训练解决方案出现时模型性能显著提高的现象,同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。
Mar, 2024
我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD,并通过修正 LLMs 输出分布的方法 TED,有效地检测和减轻数据污染的影响。实验结果表明,CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8%-30.2%,TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9%。实际应用中,我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。
Feb, 2024
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域,但也引发了一个重大问题,即基准数据污染(BDC)。本文回顾了 LLM 评估中复杂的 BDC 挑战,并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向,突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。
Jun, 2024
通过无需预训练数据或模型权重的方法,我们可以提供对语言模型测试集污染的可证明保证,通过对典型排序的基准数据集的似然性进行比较,我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中,我们的测试发现很少有普遍污染的证据。
Oct, 2023
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
最近的研究显示在大规模语言模型的训练语料中普遍存在数据污染问题,而现有的污染分析方法需要访问完整的训练数据,这常常限制了对这些模型的严格审计和准确评估。本文提出了一种新的方法来量化数据污染,通过困惑度来衡量污染程度,相关分析显示近期基础模型在流行的阅读理解和摘要化数据中存在显著的记忆化现象,而多项选择数据的污染程度较低。
Sep, 2023