加强符号绑定使得大型语言模型可靠的多选选择器

ACLJun, 2024

加强符号绑定使得大型语言模型可靠的多选选择器

Strengthened Symbol Binding Makes Large Language Models Reliable Multiple-Choice Selectors

Mengge Xue, Zhenyu Hu, Meng Zhao, Liqun Liu, Kuo Liao...

TL;DR本文研究了大型语言模型中多项选择题的选择偏差问题，提出了一种基于点对点反馈的有效 SFT 算法（PIF），通过提高模型对选项内容的理解能力，显著减少了选择偏差，提高了多项选择题的准确性。

Abstract

Multiple-Choice Questions (MCQs) constitute a critical area of research in the study of Large Language Models (LLMs). Previous works have investigated the selection bias problem in MCQs within few-shot scenarios, in which the LLM's performance may be influenced by the presentation of a

multiple-choice questions (mcqs)large language models (llms)selection bias supervised fine-tuning (sft)point-wise intelligent feedback (pif)

发现论文，激发创造

利用大型语言模型进行多选题答案推断

通过引入自然提示方法，即使用问题和答案选项来训练模型，使模型明确比较各个选项并减少计算成本，同时结合对多个选择符号的绑定能力，这篇论文探讨了 GPT-3 等大型语言模型在多项选择问题上能力的提升。

Oct, 2022

关于大型语言模型在多选题中的选择偏差

通过对大型语言模型中多项选择题的研究，我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见，我们提出了一种名为 PriDe 的新方法，它通过计算先验分布来解决这一问题，该先验分布将选项内容与选项编号分离。PriDe 方法不仅无需标签，而且在推断过程中具有更高的效果和计算效率，通过对不同领域的样本进行训练，我们证明了 PriDe 方法估计出的先验分布具有良好的泛化能力，在更广泛的场景中具有实用潜力。

Sep, 2023

评估大型语言模型在越南普通教育的多项选择问题中的符号绑定能力

我们评估大型语言模型在零样本、一次样本和少样本设置下执行多项选择符号绑定 (MCSB) 以解决多项选择问题回答 (MCQA) 任务的能力。我们提供了结构化的 LaTeX 公式指南，创建了一个新颖和高质量的数据集，用于评估大型语言模型和较小语言模型的 MCSB 能力，通过预测在问题的上下文中最可能的答案字符 (A、B、C 或 D)。我们在两个基准数据集 ViMMRC 1.0 和 ViMMRC 2.0 上评估了六个知名的大型语言模型，并展示了它们在越南语 MCSB 能力上的有希望结果。

Oct, 2023

文本研究：经过指导调整的语言模型比你想象的多次选择筛选器更稳健

通过研究，我们发现文本答案比第一个标记概率更具鲁棒性，特别是在问题干扰和选项顺序改变的情况下，这进一步证明了对文本答案的评估优于对第一个标记概率的评估。

Apr, 2024

多选题是否能够有效地检测 LLM 的能力？

在这篇论文中，我们评估了九个大语言模型在两种语言（中文和英文）的四个问答数据集上的表现，发现大语言模型在双语的多选题中存在一种顺序敏感性，竞争第一位置的选项更容易被选择，与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法，并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。

Mar, 2024

多项选择题是高效且稳健的 LLM 评估器

我们提出了 GSM-MC 和 MATH-MC 两个多项选择（MC）数据集，通过收集来自 50 多个开源模型对 GSM8K 和 MATH 的答案和错误预测构建。通过广泛的实验，我们展示了 LLMs 在这两个受欢迎基准测试的多项选择版本上的表现与原始版本的表现强烈相关，并且对干扰项选择和选项顺序非常稳健，同时评估时间缩短了多达 30 倍。按照类似的步骤，我们还介绍了 PythonIO，一个由另外两个流行的 LLM 评估基准测试 HumanEval 和 MBPP 构建的新的程序输出预测多项选择数据集。我们的数据和代码可以在此网址找到。

May, 2024

多项选择问题回答中大型语言模型的局限性研究

通过分析 26 个小型开源模型，发现 65% 的模型不能理解任务，只有 4 个模型能正确选择答案，其中只有 5 个模型对选项顺序无关，这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。

Jan, 2024

文物还是绑架: LLMs 如何在没有问题的情况下回答多项选择题？

在这项研究中，我们探索了多选题答题（MCQA）作为评估大规模语言模型（LLMs）的方法，并发现 LLMs 在只给出选项的提示情况下选择正确答案的准确性较高，未来需要加强 MCQA 基准测试，并进一步研究 LLMs 的决策过程。

Feb, 2024

大型语言模型对多项选择题选项顺序的敏感性

在这篇论文中，我们研究了大型语言模型在多项选择题中的鲁棒性，发现其对选项顺序敏感，并存在位置偏差的问题。通过详细的分析和实验证明，通过调整选项的位置策略可以缓解或者放大模型的偏见，并提出了校准预测的两种方法，成功提高了不同模型和评估指标的性能。

Aug, 2023

Open-LLM-Leaderboard：LLM 模型评估、基准和竞赛中由多项选择题到开放式问题的转换

通过完全开放式问题的方法，本研究解决了多项选择题中选择偏好和随机猜测的问题，并建立了新的语言模型评估基准。

Jun, 2024