Feb, 2024

文物还是绑架: LLMs 如何在没有问题的情况下回答多项选择题?

TL;DR在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现 LLMs 在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强 MCQA 基准测试,并进一步研究 LLMs 的决策过程。