文物还是绑架: LLMs如何在没有问题的情况下回答多项选择题?

Feb, 2024

文物还是绑架: LLMs如何在没有问题的情况下回答多项选择题?

Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?

Nishant Balepur, Abhilasha Ravichander, Rachel Rudinger

TL;DR在这项研究中，我们探索了多选题答题（MCQA）作为评估大规模语言模型（LLMs）的方法，并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高，未来需要加强MCQA基准测试，并进一步研究LLMs的决策过程。

Abstract

multiple-choice question answering (MCQA) is often used to evaluate large language models (llms). To see if MCQA assesses →

发现论文，激发创造

利用大型语言模型进行多选题答案推断

通过引入自然提示方法，即使用问题和答案选项来训练模型，使模型明确比较各个选项并减少计算成本，同时结合对多个选择符号的绑定能力，这篇论文探讨了GPT-3等大型语言模型在多项选择问题上能力的提升。

Oct, 2022

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

多项选择问题回答中大型语言模型的局限性研究

通过分析26个小型开源模型，发现65%的模型不能理解任务，只有4个模型能正确选择答案，其中只有5个模型对选项顺序无关，这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。

Jan, 2024

超越答案：评估大型语言模型的多项选择题答题合理性审查

大语言模型在自然语言处理领域中具有重要意义，然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力，需要更加健全的评估机制来衡量其性能。

Feb, 2024

多选题是否能够有效地检测LLM的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

大型语言模型是否表现出认知失调？研究揭示观点和陈述答案之间的差异

我们通过转化问题、多选题和直接文本补全的实验评估，研究了大型语言模型（LLMs）在因果推理、不确定性方面能力的量化，结果显示LLMs的表态答案与预测真实信念存在显著差异，提示它们的信念可能在多种情景和结果中存在多重偏见和不准确性，对于LLMs能力的评估方法仅提供了部分信息，需要进一步研究其能力的广度和本质。

Jun, 2024

您的大型语言模型是否有知识，还是只是选择题作弊者？

通过从现有的MCQA数据集中提取对比集，我们测试了12个大型语言模型，发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式，因此我们认为，尽管MCQA容易受到高选择准确性的影响，但LLMs并不仅仅靠利用选择快捷方式来获得MCQA排行榜上的高排名。

Jul, 2024

通过共性区分多项选择问答中的选择

本研究解决了多项选择问答（MCQA）中，各选项语义相似且均与问题相关的挑战。提出了一种新颖的模型DCQA，通过识别和消除选项间的共性来区分选择，从而更有效地利用选项间的细微差别进行推理。实验表明，DCQA在多个基准测试中优于传统模型，显示了其引导模型关注更具区分性的特征的有效性。

Aug, 2024

当所有选项都是错误的：评估大型语言模型在错误选择题上的鲁棒性

本研究探讨了大型语言模型（LLMs）在零-shot条件下识别没有正确答案的选择题的能力，这对教育评估质量至关重要。研究结果显示，LLMs在处理无正确答案问题时表现显著低于有正确答案的问题，Llama-3.1-405B在识别无效答案方面表现突出，提示LLMs在教育应用中需更重视批判性思维能力，以避免错误评估。

Aug, 2024

倾听智慧的少数：用于多选问答的选择与复制注意力头

该研究解决了现有大语言模型（LLM）在多选题评估中存在的格式限制问题。通过引入改进的查询-键分数（QK-score）和注意力分数，研究展示了采用特定选择与复制注意力头的方法能在多选问答基准测试中显著提高知识提取效率，LLaMA2-7B模型在这一方法下提高了最多16%的表现，并且在简单的合成数据集上的准确率接近完美，证明了方法的有效性。

Oct, 2024