神经级联多提及学习用于阅读理解

ICLRNov, 2017

神经级联多提及学习用于阅读理解

Multi-Mention Learning for Reading Comprehension with Neural Cascades

Swabha Swayamdipta, Ankur P. Parikh, Tom Kwiatkowski

TL;DR本文提出了一种以级联模型组合轻量级的前馈网络为基础构建的答案提取算法，可以从文本中获取多次对同一问题的提及与信息聚合，并在 TrivaQA 数据集上表现优异。

Abstract

reading comprehension is a challenging task, especially when executed across longer or across multiple evidence documents, where the answer is likely to reoccur. Existing neural architectures typically do not sca

reading comprehension neural architectures answer extraction cascade models attention mechanisms

发现论文，激发创造

多篇文档阅读理解的深度级联模型

本研究提出一种深度串级学习模型来平衡在线问答系统的效能和效率之间的基本权衡，在多文档的 MRC 场景中取得更好的效果并能够在不到 50 毫秒内稳定地为数百万日请求提供服务。

Nov, 2018

简单而有效的多段阅读理解

该论文旨在将神经段落级问题回答模型适应于以整个文档作为输入的情况，通过使用共享标准化训练目标，从多个段落中选择样本并鼓励模型产生全局正确的输出，该方法结合最先进的文档 QA 数据模型进行训练，实验证明了其在多个文档 QA 数据集上具有强大的性能表现，只需训练模型即可实现从 56.7 F1 到 71.3 F1 的大幅提高。

Oct, 2017

长篇文档的分层问答

基于强化学习和词向量，提出了一种可以高效处理长篇文档的问答框架，该框架结合了快速筛选相关句子和精读相关句子的策略，并在 Wikireading 的一个挑战性子集和一组新的数据集上实现了最新的性能，同时使模型的速度提高 3.5 倍至 6.7 倍。

Nov, 2016

阅读理解和问答的多粒度层次注意力融合网络

本文提出了一种新颖的分层注意力网络，用于阅读理解式问题回答，在问题和段落之间的不同粒度层次上水平和垂直进行注意力和融合。通过具有精细语言嵌入的问题和段落的编码，引入多粒度融合方法来全面融合来自全局和受关注表示的信息。最后，引入分层注意力网络，通过多级软对齐逐步聚焦于答案跨度。广泛的实验在大规模 SQuAD 和 TriviaQA 数据集上验证了所提出方法的有效性，同时在 TriviatQA、AddSent 和 AddOne-Sent 数据集上达到了最先进的结果。

Nov, 2018

神经阅读理解中问题与答案的分离

本文提出了一种新的神经体系结构，旨在充分利用查询 - 答案记忆体的显式支持，以回答问题。我们的模型能够在单独累积预测答案证据的同时，对给定的查询进行细化和更新。通过该体系结构的松散连接信息通路（模块），我们的模型有效地分离了与查询相关的支持搜索和答案预测。根据阅读理解的最新基准数据集，我们的模型取得了最先进的结果。定性分析表明，模型能够有效地累积来自查询和多次支持检索的加权证据，从而实现了强大的答案预测。

Jul, 2016

检索与阅读：信息检索和阅读理解的多任务学习

本研究提出一种简单而有效的方法，通过使用监督多任务学习，将 IR 和 RC 任务结合起来，以考虑答案跨度来训练 IR 组件，实现大规模机器阅读，从而取得了最先进的表现。

Aug, 2018

构建跨文档多跳阅读理解数据集

该研究提出了一项新的任务，以鼓励模型跨多个文档进行文本理解并探究现有方法的限制。该任务要求模型学习查找和组合证据，从而实现多跳（别名为多步）推理，但两个先前的竞争性模型都在选择相关信息方面遇到了困难。

Oct, 2017

探索基于图神经网络的图结构段落表示在多跳阅读理解中的应用

通过新方法引入更多的全局证据来连接更复杂的图表，并使用图神经网络进行证据融合，从而提高了问题解答的效果。

Sep, 2018

文档内级联：学习选择用于神经网络文档排序的片段

采用基于知识蒸馏的 ESM 模型剪枝候选文档以减少计算量，从而降低了基于 ETM 模型的查询延迟并提高了检索效果。

May, 2021

迭代交替神经注意力机制用于机器阅读

我们提出了一种新颖的神经注意力架构，以解决机器理解任务，例如针对文档回答填空式查询的问题。与之前的模型不同，我们不将查询折叠成单个向量，而是使用迭代交替注意机制，允许对查询和文档进行细粒度的探索。我们的模型在标准的机器理解基准测试中，例如 CNN 新闻文章和儿童书籍测试 (CBT) 数据集中，优于最先进的基线。

Jun, 2016