多选题问答系统的期望
大语言模型在自然语言处理领域中具有重要意义,然而现有的以多项选择问答作为评估方法的基准测试并未能充分捕捉到大语言模型的真实能力,需要更加健全的评估机制来衡量其性能。
Feb, 2024
本文研究了几乎无监督的多项选择题回答(MCQA)的可能性,从非常基本的知识开始,MCQA 模型知道某些选择的正确概率比其他选择更高,提出的方法在 RACE 上胜过基准方法,并且与一些监督学习方法在 MC500 上相当。
Oct, 2020
通过分析 26 个小型开源模型,发现 65% 的模型不能理解任务,只有 4 个模型能正确选择答案,其中只有 5 个模型对选项顺序无关,这些结果对于广泛使用 MCQ 测试的模型来说相当令人担忧。建议在任何情况下使用 MCQ 评估 LLMs 之前要小心谨慎地测试任务理解能力。
Jan, 2024
本文研究 Question-Answering 系统在实际部署中的问题,发现在回答引擎之前的管道部件可能会引入多样化且可观的错误,而且即使是针对强大的预训练 QA 模型,性能也会因为这些上游噪声源而显著降低。作者认为在 QA 系统能够真正有效部署之前,还有很大的改进空间。因此,他们强调 QA 评估需要扩展到考虑实际使用情况,并希望他们的研究结果能引起更广泛的关注。
Feb, 2021
本文通过在神经网络框架中密切模拟问题,引入句法信息来帮助编码问题,并将不同类型的问题和共享信息建模为适应性任务,并提出适应性模型,从而在 Stanford 问题回答数据集(SQuAD)上证明这些方法可帮助获得比竞争基准更好的结果。
Mar, 2017
本文通过在医学百科全书段落中以疾病名称预测为重点的 Masked Language Modeling 方法,提高了医学多项选择题回答准确率;本文还展示了基于生成的 MCQA 数据集的 fine-tuning 方法胜过基于 MLM 的方法,并且正确遮盖答案线索对于良好表现非常关键。我们发布了新的预训练数据集,并在 4 个 MCQA 数据集上实现了最新最好的结果,在 MedQA-USMLE 上基础型号效果提高了 5.7%。
Mar, 2023
该研究探讨了 Web QA 的风险问题,提出了一种基于预测不确定性的风险控制框架,并引入了风险相关的度量标准进行 Web QA 的评估。实证结果证明了该方法的有效性。
May, 2019
本文通过定量和定性分析现有端到端神经模型在斯坦福问答数据集上的结果,旨在理解和比较其特性,以迈向实现在多个领域中的泛化能力。研究发现,预测错误反映了某些模型特定偏差,本文对此进行了进一步讨论。
Jun, 2018
在这项研究中,我们探索了多选题答题(MCQA)作为评估大规模语言模型(LLMs)的方法,并发现 LLMs 在只给出选项的提示情况下选择正确答案的准确性较高,未来需要加强 MCQA 基准测试,并进一步研究 LLMs 的决策过程。
Feb, 2024
我们的研究针对现有的基于上下文的问答系统中存在的一系列问题,包括在模型参数知识与上下文冲突时缺乏对上下文的关注、对噪声的鲁棒性不足以及答案不一致性等。通过总结之前的一些已讨论过的以及新颖的需求,系统地评估了 15 个问答系统在 5 个数据集上的性能。实验结果表明,噪声敏感的系统在给定无关上下文的情况下答案一致性不一定更好,而噪声敏感度较高的系统更可能根据与其参数知识冲突的上下文正确回答问题。而冲突的知识和噪声的结合可能会导致系统性能降低高达 96%。因此,我们的需求分析有助于增加对这些模型工作原理的理解,并揭示了潜在的改进方向。
Jan, 2024