多项选择题是高效且稳健的 LLM 评估器

May, 2024

多项选择题是高效且稳健的 LLM 评估器

Multiple-Choice Questions are Efficient and Robust LLM Evaluators

Ziyin Zhang, Lizhen Xu, Zhaokun Jiang, Hongkun Hao, Rui Wang

TL;DR我们提出了 GSM-MC 和 MATH-MC 两个多项选择（MC）数据集，通过收集来自 50 多个开源模型对 GSM8K 和 MATH 的答案和错误预测构建。通过广泛的实验，我们展示了 LLMs 在这两个受欢迎基准测试的多项选择版本上的表现与原始版本的表现强烈相关，并且对干扰项选择和选项顺序非常稳健，同时评估时间缩短了多达 30 倍。按照类似的步骤，我们还介绍了 PythonIO，一个由另外两个流行的 LLM 评估基准测试 HumanEval 和 MBPP 构建的新的程序输出预测多项选择数据集。我们的数据和代码可以在此网址找到。

Abstract

We present gsm-mc and math-mc, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from over 50 open-source models. Through extensive experiments, we sh

gsm-mc math-mc llms distractor choices pythonio

发现论文，激发创造

Open-LLM-Leaderboard：LLM 模型评估、基准和竞赛中由多项选择题到开放式问题的转换

通过完全开放式问题的方法，本研究解决了多项选择题中选择偏好和随机猜测的问题，并建立了新的语言模型评估基准。

Jun, 2024

多选题是否能够有效地检测 LLM 的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

多项选择题与大型语言模型：以虚构医疗数据为例的案例研究

利用模拟医学考题的方法评估大型语言模型在医学领域的表现，发现传统的多项选择题评估方法可能无法准确测量其临床知识和推理能力，而更强调其模式识别技能。这项研究强调了需要更强劲的评估方法，以更好地评估大型语言模型在医学背景下的真实能力。

Jun, 2024

数学多项选择题生成：人类 - 大型语言模型协同

本文介绍了一个原型工具，旨在促进语言模型与教育工作者的合作，以简化数学多项选择题生成过程。我们进行了一项试点研究，涉及数学教育工作者，以调查该工具如何帮助他们简化高质量的数学多项选择题的制作过程。研究发现，虽然语言模型能够生成良好形式的问题提示，但其生成的干扰项无法涵盖常见的学生错误和误解。尽管如此，人工智能与人类的合作有潜力提高多项选择题生成的效率和有效性。

May, 2024

MMEvalPro：多模态基准测试的可靠和高效评估

通过提出 MMEvalPro 基准测试，我们针对多模态模型在视觉问题中的性能进行了评估的可靠性进行了改进，其结果表明该基准测试更具挑战性且更可信，为进一步推动未来研究提供了重要潜力。

Jun, 2024

UnibucLLM: 利用语言模型自动预测多项选择题的难度和回答时间

本研究通过大型语言模型（LLM）的数据增强方法，预测 BEA 2024 共享任务中退休的 USMLE 多项选择题（MCQs）的题目难度和答题时间。我们的方法是通过从零样本 LLM（Falcon，Meditron，Mistral）中添加答案来增强数据集，并使用基于六种不同特征组合的变压器模型。结果表明，预测问题的难度更具挑战性。值得注意的是，我们表现最佳的方法始终包括问题文本，并受益于 LLM 答案的多样性，突显了 LLM 在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。

Apr, 2024

GSM-Plus: 评估 LLMs 作为数学问题求解器鲁棒性的综合基准

通过对大型语言模型进行广泛的问题变体测试，我们评估了它们的数学推理能力的鲁棒性。结果表明，虽然这些模型在数学推理能力上表现出不同水平，但它们的性能远非稳健。

Feb, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

多项选择问题回答中大型语言模型的局限性研究

通过分析 26 个小型开源模型，发现 65% 的模型不能理解任务，只有 4 个模型能正确选择答案，其中只有 5 个模型对选项顺序无关，这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。

Jan, 2024

通过大型语言模型探索数学多项选择题的自动生成方式

研究了基于大型语言模型的自动生成干扰项的任务，发现虽然大型语言模型能生成一些数学上有效的干扰项，但它们对于预测真实学生常见的错误或误解的能力较弱。

Apr, 2024