Oct, 2024

CLR-Bench:评估大型语言模型在大学水平推理中的表现

TL;DR本研究针对当前大型语言模型在大学课程推理中的评估不足提出了CLR-Bench,填补了评估多选问题最终预测准确性与理解能力之间的空白。通过引入两种创新性度量标准,研究发现即使是最佳的封闭源模型(如GPT-4 turbo)在大学水平回答中表现不佳,推理能力显著不足。