Open-LLM-Leaderboard:LLM模型评估、基准和竞赛中由多项选择题到开放式问题的转换
在这篇论文中,我们研究了大型语言模型在多项选择题中的鲁棒性,发现其对选项顺序敏感,并存在位置偏差的问题。通过详细的分析和实验证明,通过调整选项的位置策略可以缓解或者放大模型的偏见,并提出了校准预测的两种方法,成功提高了不同模型和评估指标的性能。
Aug, 2023
通过对大型语言模型中多项选择题的研究,我们发现选项编号与选择偏见之间存在密切关系。为了减轻选择偏见,我们提出了一种名为PriDe的新方法,它通过计算先验分布来解决这一问题,该先验分布将选项内容与选项编号分离。PriDe方法不仅无需标签,而且在推断过程中具有更高的效果和计算效率,通过对不同领域的样本进行训练,我们证明了PriDe方法估计出的先验分布具有良好的泛化能力,在更广泛的场景中具有实用潜力。
Sep, 2023
通过分析26个小型开源模型,发现65%的模型不能理解任务,只有4个模型能正确选择答案,其中只有5个模型对选项顺序无关,这些结果对于广泛使用MCQ测试的模型来说相当令人担忧。建议在任何情况下使用MCQ评估LLMs之前要小心谨慎地测试任务理解能力。
Jan, 2024
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
利用基准排名构建的大型语言模型(LLM)排行榜经常被用来指导实践者选择模型,但我们展示了这是一个(潜在的昂贵)错误。在现有的排行榜中,LLM的相对性能对(通常微小的)细节非常敏感。我们通过对多个选择题基准进行实验,比如改变选项的顺序或答案选择方法,我们发现这些微小扰动会导致排名变化高达8个位置。我们通过对三类基准扰动进行系统性实验并确定其来源来解释这个现象。我们的分析得出了一些最佳实践建议,包括使用混合评分方法进行答案选择。我们的研究强调了依赖简单基准评估的风险,并规划了更健壮的评估方案的路径。
Feb, 2024
在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强MCQA基准测试,并进一步研究LLMs的决策过程。
Feb, 2024
在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。
Mar, 2024
本研究通过大型语言模型(LLM)的数据增强方法,预测BEA 2024共享任务中退休的USMLE多项选择题(MCQs)的题目难度和答题时间。我们的方法是通过从零样本LLM(Falcon,Meditron,Mistral)中添加答案来增强数据集,并使用基于六种不同特征组合的变压器模型。结果表明,预测问题的难度更具挑战性。值得注意的是,我们表现最佳的方法始终包括问题文本,并受益于LLM答案的多样性,突显了LLM在医疗执照考试自动评估中的潜力。我们将代码提供在此 https URL。
Apr, 2024
利用预训练的大型语言模型(LLMs),我们鉴定了多种细微的偏见类型,包括自信偏见、含蓄偏见和包容性偏见,在自由文本中检测这些偏见,以提供更好的反馈给LLMs。
Jul, 2024