大型语言模型对多项选择题选项顺序的敏感性
通过引入自然提示方法,即使用问题和答案选项来训练模型,使模型明确比较各个选项并减少计算成本,同时结合对多个选择符号的绑定能力,这篇论文探讨了GPT-3等大型语言模型在多项选择问题上能力的提升。
Oct, 2022
通过对大型语言模型中多项选择题的研究,我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见,我们提出了一种名为PriDe的新方法,它通过计算先验分布来解决这一问题,该先验分布将选项内容与选项编号分离。PriDe方法不仅无需标签,而且在推断过程中具有更高的效果和计算效率,通过对不同领域的样本进行训练,我们证明了PriDe方法估计出的先验分布具有良好的泛化能力,在更广泛的场景中具有实用潜力。
Sep, 2023
通过分析26个小型开源模型,发现65%的模型不能理解任务,只有4个模型能正确选择答案,其中只有5个模型对选项顺序无关,这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。
Jan, 2024
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强MCQA基准测试,并进一步研究LLMs的决策过程。
Feb, 2024
使用大型语言模型(LLMs)进行多项选择题(MCQs)的实证研究表明,概率评估方法在生成预测方面存在内在局限性,与当前评估框架通常基于输出概率而非直接生成回应的计算限制相关,结果强调了LLMs评估方法的有效性和未来研究的启示。
Feb, 2024
在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。
Mar, 2024
通过研究,我们发现文本答案比第一个标记概率更具鲁棒性,特别是在问题干扰和选项顺序改变的情况下,这进一步证明了对文本答案的评估优于对第一个标记概率的评估。
Apr, 2024
我们在这篇论文中研究了大型语言模型(LLMs)中的“选择偏差”现象,专注于模型在从有序序列中选择最佳选项的问题。我们深入探讨了与选项顺序和标记使用相关的偏差,这些偏差显著影响了LLMs的决策过程。通过多个模型和任务的广泛实证分析,我们还对这些偏差的影响进行了量化。此外,我们提出了缓解策略以增强模型性能。我们的主要贡献有三个方面:1)精确量化了选项顺序和标记对LLMs的影响;2)开发了缓解标记和顺序敏感性以增强鲁棒性的策略;3)详细分析了不同模型和任务的敏感性,为选择问题的更稳定可靠的LLMs应用程序的创建提供了指导。
Jun, 2024
本研究解决了大型语言模型在提供一致的偏好排序方面的不足,尤其是在缺乏绝对答案的情况下。通过基于序理论的形式化,我们验证了当前先进的语言模型在满足一致性标准方面的能力,结果显示这些模型存在显著的不一致,提示需要进一步的研究以克服这些局限性。
Oct, 2024