Jan, 2024

多项选择问题回答中大型语言模型的局限性研究

TL;DR通过分析26个小型开源模型,发现65%的模型不能理解任务,只有4个模型能正确选择答案,其中只有5个模型对选项顺序无关,这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。