Jul, 2024

您的大型语言模型是否有知识,还是只是选择题作弊者?

TL;DR通过从现有的MCQA数据集中提取对比集,我们测试了12个大型语言模型,发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式,因此我们认为,尽管MCQA容易受到高选择准确性的影响,但LLMs并不仅仅靠利用选择快捷方式来获得MCQA排行榜上的高排名。