NovelQA: 一个长距离小说问答基准
通过使用大型语言模型的长期上下文能力,我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程,包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较,并使用 Bradley-Terry 模型进行排名,与绝对评分器相比,提供了一种更一致和区分性更强的评分机制。同时,我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法,并且我们的评估器与人类判断达到了很好的一致性,甚至在数据集中发现了错误。使用我们的自动化评估方法,我们展示了与无上下文(参数化知识)和基于检索的方法相比,使用整本书籍作为上下文可以获得更优秀的阅读理解性能。
May, 2024
本研究介绍了 ProxyQA 框架,用于评估长文本生成能力,并通过评估器和生成的内容作为背景背景进行生成内容的质量评估,结果表明使用代理问题评估是一种高度自洽且与人工标准相关的验证方法。
Jan, 2024
通过介绍 CaLMQA,一个涵盖 23 种语言的 2.6K 多样化问题集,我们发现大型语言模型在生成复杂问题的长篇答案时在某些低资源语言方面的质量明显下降,这突显了 LLM 多语言能力和非英语长篇问题回答评估中进一步研究的需求。
Jun, 2024
该论文提出了一种利用检索增强生成技术和迁移学习来处理教科书问答中领域外情况的方法,以处理复杂的语境和多模态数据,并改善推理能力。通过对 Llama-2 模型进行监督微调和引入 RAG,我们的架构在非图表多项选择题中相较于基线模型,在验证集上精度提升了 4.12%,在测试集上提升了 9.84%。
Feb, 2024
本文介绍了一个名为 QuALITY 的多项选择问答数据集,它包含英文上下文段落,其平均长度约为 5,000 个标记,远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题,有一半的问题无法在时间限制下回答,说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差(55.4%),并且显著落后于人类的表现(93.5%)。
Dec, 2021
基于 LooGLE 评估模型的表现,研究显示商业模型在短依赖任务上胜过开源模型,同时也揭示了长依赖任务的困难,并指出在短问答任务中检索式技术有着明显的好处,而扩展上下文窗口长度的策略对于长上下文理解的影响有限。
Nov, 2023
该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战,在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性,且训练集和验证集存在显著重复。给出了缓解这些问题的建议。
Mar, 2021
这篇论文介绍了一种在核能领域评估语言模型性能的人工测试标准 ——NuclearQA,它由专家设计的 100 个问题组成,针对语言模型的能力进行了测试。论文还提出了一种新的评估指标,发现现有的最优语言模型在该测试标准上的表现不尽人意,揭示了现有语言模型的科学知识差距。
Oct, 2023
本文提出一种新的方法,通过在 fine-tuning 过程中为模型提供对比监督信号,通过最大化问题 - 证据的相似性,明确区分支持证据句子和负面证据句子,从而为长上下文问答模型提供更好的支持证据识别,取得了一致的性能提升。
Dec, 2021