BriefGPT.xyz
Ask
alpha
关键词
inference-time decontamination
搜索结果 - 1
推理时去污:重复使用泄露的基准测试用于大型语言模型评估
我们提出了推理时间去污染(ITD)方法,通过检测和重写泄露样本而不改变它们的难度,来降低由于记忆泄露基准测试而导致的性能夸大影响。实验结果表明,ITD 方法在 GSM8K 上可以将夸大的准确性降低 22.9%,在 MMLU 上可以降低 19
→
PDF
16 days ago
Prev
Next