多选题是否能够有效地检测LLM的能力？

Mar, 2024

多选题是否能够有效地检测LLM的能力？

Can multiple-choice questions really be useful in detecting the abilities of LLMs?

Wangyue Li, Liangzhi Li, Tong Xiang, Xiao Liu, Wei Deng...

TL;DR在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Abstract

multiple-choice questions (MCQs) are widely used in the evaluation of large language models (LLMs) due to their simplicity and efficiency. However, there are concerns about whether MCQs can truly measure LLM's ca

发现论文，激发创造

利用大型语言模型进行多选题答案推断

通过引入自然提示方法，即使用问题和答案选项来训练模型，使模型明确比较各个选项并减少计算成本，同时结合对多个选择符号的绑定能力，这篇论文探讨了GPT-3等大型语言模型在多项选择问题上能力的提升。

Oct, 2022

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

多项选择问题回答中大型语言模型的局限性研究

通过分析26个小型开源模型，发现65%的模型不能理解任务，只有4个模型能正确选择答案，其中只有5个模型对选项顺序无关，这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。

Jan, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

文物还是绑架: LLMs如何在没有问题的情况下回答多项选择题?

在这项研究中，我们探索了多选题答题（MCQA）作为评估大规模语言模型（LLMs）的方法，并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高，未来需要加强MCQA基准测试，并进一步研究LLMs的决策过程。

Feb, 2024

使用MultiQ评估大型语言模型的基础多语言能力

研究表明，尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言，人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题，探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现，在一些语言中，这些模型在回答问题时表现得既忠实又准确，而大多数模型在忠实于回答问题时的准确性更高，但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释，发现了可能存在的相关性，值得进一步研究。

Mar, 2024

重新思考基于生成的大型语言模型对语义理解的评估

通过对24种模型的11个评估标准进行综合评估，本文首先回顾了当前的评估方法——多项选择题回答（MCQA），并突出了MCQA的一些潜在缺点，接着引入了RWQ-Elo评分系统，通过24种大型语言模型的竞争性对战，模拟现实世界的使用情景，最后分析了系统特点、与先前排行榜的对比，揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。

Mar, 2024

韩国大型语言模型的实用能力评估

通过评估Large Language Models（LLMs）的现状，我们探讨了LLMs在韩语背景下的语用能力，包括常规的多项选择题和开放式问题的评估，结果显示GPT-4在两种评估设置中表现出色，分别获得81.11和85.69分，HyperCLOVA X也得到了良好的分数，尤其在开放式问题的评估中，获得了81.56分，与GPT-4相比仅相差4.13分，而使用CoT提示的少样本学习策略则引入了对字面解释的偏见，限制了准确的语用推理能力，这些发现强调了提升LLMs在理解和传达超出字面解释的复杂意义方面的重要性。

Mar, 2024

Open-LLM-Leaderboard：LLM模型评估、基准和竞赛中由多项选择题到开放式问题的转换

通过完全开放式问题的方法，本研究解决了多项选择题中选择偏好和随机猜测的问题，并建立了新的语言模型评估基准。

Jun, 2024

您的大型语言模型是否有知识，还是只是选择题作弊者？

通过从现有的MCQA数据集中提取对比集，我们测试了12个大型语言模型，发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式，因此我们认为，尽管MCQA容易受到高选择准确性的影响，但LLMs并不仅仅靠利用选择快捷方式来获得MCQA排行榜上的高排名。

Jul, 2024