Jun, 2024
推理时去污:重复使用泄露的基准测试用于大型语言模型评估
Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation
Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu...
TL;DR我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变它们的难度,来降低由于记忆泄露基准测试而导致的性能夸大影响。实验结果表明,ITD 方法在 GSM8K 上可以将夸大的准确性降低 22.9%,在 MMLU 上可以降低 19.0%。在 MMLU 上,使用推理时间去污染方法可以使 Phi3 和 Mistral 的结果分别降低 6.7%和 3.6%。我们希望 ITD 方法能为大型语言模型提供更真实的评估结果。