VarBench: 动态变量扰动下的鲁棒语言模型基准测试
大型语言模型如 GPT-4、Claude-3 和 Gemini 的快速发展已经改变了自然语言处理领域,但也引发了一个重大问题,即基准数据污染(BDC)。本文回顾了 LLM 评估中复杂的 BDC 挑战,并探讨了缓解传统基准风险的替代评估方法。本文还分析了缓解 BDC 风险的挑战和未来发展方向,突出了这一问题的复杂性和确保 LLM 评估在实际应用中可靠性的创新解决方案的需求。
Jun, 2024
通过对大型语言模型(LLMs)进行系统的鲁棒性评估,本研究提供了关于 LLMs 对多样化和噪声输入的处理能力方面的进一步改进的见解。
Jun, 2024
通过无需预训练数据或模型权重的方法,我们可以提供对语言模型测试集污染的可证明保证,通过对典型排序的基准数据集的似然性进行比较,我们的测试能够可靠地证明测试集污染的情况。在五个常见的公开可访问的语言模型中,我们的测试发现很少有普遍污染的证据。
Oct, 2023
我们通过检测数据污染并提出 “Testset Slot Guessing” 方法,发现商业化的 LLM 在评估基准中有明显的性能改进,并呼吁在该领域使用更强大的评估方法和基准。
Nov, 2023
该研究综合研究了大型语言模型在代码生成任务中的数据污染问题,分析了常见代码生成基准测试与预训练语料之间的重叠程度,并揭示了类似训练解决方案出现时模型性能显著提高的现象,同时分析了模型大小、问题难度和问题长度等因素对模型记忆和泛化的影响。
Mar, 2024
通过定义和衡量一系列度量评估基准中的方差,包括初始化中的随机性和训练过程中的单调性,本研究提供了对各种方差度量的实证估计,并为从业者提供了考虑和建议。研究发现,简单的改变策略任务(如 MMLU)为较小规模(约 7B)的模型降低了方差,而受人类测试文献启发的更复杂方法(如项目分析和项目反应理论)在降低方差方面效果不明显。总体而言,本研究通过对评估基准中的方差提供了洞察,提出了降低方差的语言模型特定技术,并鼓励从业者在比较模型时谨慎考虑方差。
Jun, 2024
利用简单且可扩展的 Perplexity 和 N-gram 精度两个度量指标来检测潜在数据泄漏,揭示了大规模语言模型在数学推理领域存在的数据误用问题,并提出了关于模型文档、基准设置和未来评估的几点建议,其中包括提出 “基准透明卡” 以促进透明度和语言模型的健康发展。
Apr, 2024
大型语言模型的数据污染问题及对基准测试的影响进行了全面纵向分析,结果表明数据污染现象显著存在,这项研究为研究现代模型中数据污染问题的严格分析奠定了基础,并提出了在大型语言模型时代进行基准测试的最佳实践和未来步骤。
Oct, 2023
开发大型语言模型的不透明性引起了关于潜在的训练数据污染的担忧。我们提出了一种基于跨语言的深层污染形式,可以欺骗传统的检测方法。我们还探讨了跨语言污染在解释语言模型的工作机制和提升多语言能力方面的潜在用途。
Jun, 2024