Dec, 2024

MMLU-CF:无污染的多任务语言理解基准

TL;DR本研究针对多选题数据集(如MMLU)在评估大型语言模型(LLMs)时遭受的基准污染问题,提出了一种新的无污染且更具挑战性的多选题基准MMLU-CF。通过引入更广泛的数据来源和设计去污染规则,该基准在验证并确保结果可信性方面展现了有效性,最终使主流模型的成绩显示出难度和真实性。