大型语言模型对多项选择题选项顺序的敏感性
我们在这篇论文中研究了大型语言模型(LLMs)中的 “选择偏差” 现象,专注于模型在从有序序列中选择最佳选项的问题。我们深入探讨了与选项顺序和标记使用相关的偏差,这些偏差显著影响了 LLMs 的决策过程。通过多个模型和任务的广泛实证分析,我们还对这些偏差的影响进行了量化。此外,我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面:1)精确量化了选项顺序和标记对 LLMs 的影响;2)开发了缓解标记和顺序敏感性以增强鲁棒性的策略;3)详细分析了不同模型和任务的敏感性,为选择问题的更稳定可靠的 LLMs 应用程序的创建提供了指导。
Jun, 2024
通过分析 26 个小型开源模型,发现 65% 的模型不能理解任务,只有 4 个模型能正确选择答案,其中只有 5 个模型对选项顺序无关,这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。
Jan, 2024
通过对大型语言模型中多项选择题的研究,我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见,我们提出了一种名为 PriDe 的新方法,它通过计算先验分布来解决这一问题,该先验分布将选项内容与选项编号分离。PriDe 方法不仅无需标签,而且在推断过程中具有更高的效果和计算效率,通过对不同领域的样本进行训练,我们证明了 PriDe 方法估计出的先验分布具有良好的泛化能力,在更广泛的场景中具有实用潜力。
Sep, 2023
通过从现有的 MCQA 数据集中提取对比集,我们测试了 12 个大型语言模型,发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式,因此我们认为,尽管 MCQA 容易受到高选择准确性的影响,但 LLMs 并不仅仅靠利用选择快捷方式来获得 MCQA 排行榜上的高排名。
Jul, 2024
通过引入自然提示方法,即使用问题和答案选项来训练模型,使模型明确比较各个选项并减少计算成本,同时结合对多个选择符号的绑定能力,这篇论文探讨了 GPT-3 等大型语言模型在多项选择问题上能力的提升。
Oct, 2022
在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。
Mar, 2024
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM 的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达 8 个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。
Feb, 2024
该研究系统比较了多个选择题语言模型的不同预测方法,包括根据生成的回答进行评分、基于概率的得分方法、李克特量表风格的评分方法和嵌入相似度。通过对实用语言解释的案例研究发现,语言模型的预测结果在方法选择的变化下不具有稳健性,无论是在单个语言模型内部还是在不同语言模型之间。由于这种变异性导致研究人员在报告结果时存在显著的自由度,了解这种变异性对于确保结果的稳健性和研究诚信至关重要。
Mar, 2024
通过研究,我们发现文本答案比第一个标记概率更具鲁棒性,特别是在问题干扰和选项顺序改变的情况下,这进一步证明了对文本答案的评估优于对第一个标记概率的评估。
Apr, 2024