Aug, 2024

当所有选项都是错误的:评估大型语言模型在错误选择题上的鲁棒性

TL;DR本研究探讨了大型语言模型(LLMs)在零-shot条件下识别没有正确答案的选择题的能力,这对教育评估质量至关重要。研究结果显示,LLMs在处理无正确答案问题时表现显著低于有正确答案的问题,Llama-3.1-405B在识别无效答案方面表现突出,提示LLMs在教育应用中需更重视批判性思维能力,以避免错误评估。