Jan, 2024

多项选择问题回答中大型语言模型的局限性研究

TL;DR通过分析 26 个小型开源模型,发现 65% 的模型不能理解任务,只有 4 个模型能正确选择答案,其中只有 5 个模型对选项顺序无关,这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。