使用长输入文本进行问答的 QuALITY 模型

ACLDec, 2021

使用长输入文本进行问答的 QuALITY 模型

QuALITY: Question Answering with Long Input Texts, Yes!

Richard Yuanzhe Pang, Alicia Parrish, Nitish Joshi, Nikita Nangia, Jason Phang...

TL;DR本文介绍了一个名为 QuALITY 的多项选择问答数据集，它包含英文上下文段落，其平均长度约为 5,000 个标记，远长于现有典型模型所能处理的长度。该数据集基于整篇文章编写和验证问题，有一半的问题无法在时间限制下回答，说明简单的浏览和搜索并不足以表现出优良的效果。作者的基准模型在这个任务上的表现较差（55.4％），并且显著落后于人类的表现（93.5％）。

Abstract

To enable building and testing models on long-document comprehension, we introduce quality, a multiple-choice qa dataset with

quality multiple-choice qa dataset long-document comprehension context passages baseline models

发现论文，激发创造

NovelQA: 一个长距离小说问答基准

使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现，结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战，强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

长文本问答

这篇论文介绍了第一个大规模的长篇问答语料库，其中包括了 270,000 个 Reddit 论坛上的线索，使用多任务目标的诠释性模型表现最佳，但仍存在改进的余地。

Jul, 2019

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

提升问题生成的上下文捕获能力

本文旨在通过运用多阶段关注机制和序列到序列模型，在长文档的背景下产生更真实的问题，结果表明在 SQuAD、MS MARCO 和 NewsQA 三个问答数据集上，该方法优于现有方法。

Oct, 2019

基于监督对比学习的长文本问答

本文提出一种新的方法，通过在 fine-tuning 过程中为模型提供对比监督信号，通过最大化问题 - 证据的相似性，明确区分支持证据句子和负面证据句子，从而为长上下文问答模型提供更好的支持证据识别，取得了一致的性能提升。

Dec, 2021

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

长格式问答进展的障碍

该论文探讨了长篇问答任务中关于评估和数据集构建所面临的挑战，在提出新模型的同时指出该任务中 ROUGE-L 评估不具信息性，且训练集和验证集存在显著重复。给出了缓解这些问题的建议。

Mar, 2021