Jun, 2024

改变答案顺序可降低MMLU准确度

TL;DR通过对多个子任务的测试准确率进行评估,研究了大型语言模型在多项选择问答数据集上的可靠性,提出了调整排行榜测试标准的可能性。