多项选择问题回答中大型语言模型的局限性研究
本研究对最近在多项选择题回答(MCQA)数据集中取得高分的模型进行扰动实验,发现其表现不符合语言理解的人类期望,提出了一种新的训练方法,使模型更好地学习输入数据并使模型性能更好。
Nov, 2020
通过引入自然提示方法,即使用问题和答案选项来训练模型,使模型明确比较各个选项并减少计算成本,同时结合对多个选择符号的绑定能力,这篇论文探讨了GPT-3等大型语言模型在多项选择问题上能力的提升。
Oct, 2022
在这篇论文中,我们研究了大型语言模型在多项选择题中的鲁棒性,发现其对选项顺序敏感,并存在位置偏差的问题。通过详细的分析和实验证明,通过调整选项的位置策略可以缓解或者放大模型的偏见,并提出了校准预测的两种方法,成功提高了不同模型和评估指标的性能。
Aug, 2023
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现LLMs在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强MCQA基准测试,并进一步研究LLMs的决策过程。
Feb, 2024
研究表明,尽管当前大部分开放式语言模型主要面向英语或少数几种高资源语言,人们却在多种语言中使用这些模型。本文通过引入MultiQ标准测试并评估27.4k个不同语言的基本开放式问答问题,探讨了现有开放式语言模型在超越其预定用途方面的多语言能力。通过研究发现,在一些语言中,这些模型在回答问题时表现得既忠实又准确,而大多数模型在忠实于回答问题时的准确性更高,但在某些语言中模型的准确性和忠实度都较低。我们还探讨了分词对这些发现的潜在解释,发现了可能存在的相关性,值得进一步研究。
Mar, 2024
通过对24种模型的11个评估标准进行综合评估,本文首先回顾了当前的评估方法——多项选择题回答(MCQA),并突出了MCQA的一些潜在缺点,接着引入了RWQ-Elo评分系统,通过24种大型语言模型的竞争性对战,模拟现实世界的使用情景,最后分析了系统特点、与先前排行榜的对比,揭示了RWQ-Elo系统的稳定性、注册新模型的可行性和其重塑LLM排行榜的潜力。
Mar, 2024
在这篇论文中,我们评估了九个大语言模型在两种语言(中文和英文)的四个问答数据集上的表现,发现大语言模型在双语的多选题中存在一种顺序敏感性,竞争第一位置的选项更容易被选择,与此同时我们提出了两种衡量大语言模型输出一致性和置信度的方法,并发现多选题相较长篇生成题在一致性和预期校准误差方面较不可靠。
Mar, 2024
通过从现有的MCQA数据集中提取对比集,我们测试了12个大型语言模型,发现这些模型在给予问题和选项时并不依赖仅有的选择快捷方式,因此我们认为,尽管MCQA容易受到高选择准确性的影响,但LLMs并不仅仅靠利用选择快捷方式来获得MCQA排行榜上的高排名。
Jul, 2024
该研究解决了现有大语言模型(LLM)在多选题评估中存在的格式限制问题。通过引入改进的查询-键分数(QK-score)和注意力分数,研究展示了采用特定选择与复制注意力头的方法能在多选问答基准测试中显著提高知识提取效率,LLaMA2-7B模型在这一方法下提高了最多16%的表现,并且在简单的合成数据集上的准确率接近完美,证明了方法的有效性。
Oct, 2024