Jun, 2024

LLM 基准性能上的基准率效应:区分考试策略与基准性能

TL;DR使用 MMLU 数据集,通过对空测验探究基本率概率对任务性能的影响以及如何通过反事实提示来减轻这种影响。我们提出了 Nvr-X-MMLU 任务作为 MMLU 的变种,从而消除测试能力对任务性能的混淆问题。