Feb, 2024

文物还是绑架: LLMs如何在没有问题的情况下回答多项选择题?

TL;DR在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强MCQA基准测试,并进一步研究LLMs的决策过程。