干净评估:对受污染的大型语言模型的清洁评估
KIEval 是一个知识驱动的交互式评估框架,通过在常规 LLM 基准问题中引入一个 LLM 增强的 “交互者” 角色,进行动态抗干扰评估,以确定模型的回答是否仅仅是基准答案的回忆,还是展示了更复杂对话中应用知识的深度理解。对五个数据集上的七个领先 LLM 进行的大量实验证实了 KIEval 的有效性和泛化性,同时揭示了数据污染对模型在现实世界的适用性和理解力没有贡献甚至产生负效应的事实,并且现有的 LLM 数据干扰检测方法只能在预训练阶段识别干扰而无法在监督微调期间进行识别。
Feb, 2024
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
Jun, 2024
利用最新的文本构建不受数据污染的阅读理解评估方法 LatestEval,通过仅使用最近时间窗口内发布的文本,并避免与预训练语言模型的训练语料库重叠,从而鼓励模型基于剩余的上下文推断答案而不是简单地复制粘贴,实验表明,在 LatestEval 上,语言模型显示出可忽略的记忆行为,相较于之前的基准测试,减少了数据污染风险并且评估更具鲁棒性。
Dec, 2023
我们提出了基于 LLMs 输出分布的数据污染检测方法 CDD,并通过修正 LLMs 输出分布的方法 TED,有效地检测和减轻数据污染的影响。实验结果表明,CDD 在准确度、F1 得分和 AUC 指标方面相对其他方法平均提升了 21.8%-30.2%,TED 在 24 种设置和 21 种污染程度下成功地减轻数据污染引起的性能下降高达 66.9%。实际应用中,我们发现 ChatGPT 在 HumanEval 基准中存在受数据污染的高风险。
Feb, 2024
大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析,结果表明数据污染现象显著存在,这项研究为研究现代模型中数据污染问题的严格分析奠定了基础,并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。
Oct, 2023
该研究综合研究了大型语言模型在代码生成任务中的数据污染问题,分析了常见代码生成基准测试与预训练语料之间的重叠程度,并揭示了类似训练解决方案出现时模型性能显著提高的现象,同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。
Mar, 2024
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域,但也引发了一个重大问题,即基准数据污染(BDC)。本文回顾了 LLM 评估中复杂的 BDC 挑战,并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向,突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。
Jun, 2024