ACLJul, 2024

您的大型语言模型是否有知识,还是只是选择题作弊者?

TL;DR通过从现有的 MCQA 数据集中提取对比集,我们测试了 12 个大型语言模型,发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式,因此我们认为,尽管 MCQA 容易受到高选择准确性的影响,但 LLMs 并不仅仅靠利用选择快捷方式来获得 MCQA 排行榜上的高排名。