Jun, 2024

推理时去污:重复使用泄露的基准测试用于大型语言模型评估

TL;DR我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变它们的难度,来降低由于记忆泄露基准测试而导致的性能夸大影响。实验结果表明,ITD 方法在 GSM8K 上可以将夸大的准确性降低 22.9%,在 MMLU 上可以降低 19.0%。在 MMLU 上,使用推理时间去污染方法可以使 Phi3 和 Mistral 的结果分别降低 6.7%和 3.6%。我们希望 ITD 方法能为大型语言模型提供更真实的评估结果。