揭示语义检索对大规模机器阅读的重要性

EMNLPSep, 2019

揭示语义检索对大规模机器阅读的重要性

Revealing the Importance of Semantic Retrieval for Machine Reading at Scale

Yixin Nie, Songhe Wang, Mohit Bansal

TL;DR本文提出管道系统及语义检索中间层制定通用设计指南。在事实检查和开放领域多跳 QA 中，该系统取得了表现。统计分析表明，中间层语义检索提高了上游信息的筛选效率，下游建模的数据质量，实现了学习上下文逻辑结构的机器阅读。

Abstract

machine reading at Scale (MRS) is a challenging task in which a system is given an input query and is asked to produce a precise output by "reading" information from a large knowledge base. The task has gained popularity with its natural combination of →

machine reading information retrieval machine comprehension semantic retrieval fact verification

发现论文，激发创造

检索与阅读：信息检索和阅读理解的多任务学习

本研究提出一种简单而有效的方法，通过使用监督多任务学习，将 IR 和 RC 任务结合起来，以考虑答案跨度来训练 IR 组件，实现大规模机器阅读，从而取得了最先进的表现。

Aug, 2018

多篇文档阅读理解的深度级联模型

本研究提出一种深度串级学习模型来平衡在线问答系统的效能和效率之间的基本权衡，在多文档的 MRC 场景中取得更好的效果并能够在不到 50 毫秒内稳定地为数百万日请求提供服务。

Nov, 2018

将语义信息整合到 Retro-Reader 的草图阅读模块中，以提升越南机器阅读理解

本篇研究报告讲述 SemSRL 应用在预训练语言模型中以提高 Retro-Reader 在越南语阅读理解任务上的性能表现

Jan, 2023

使用组合性解释来教授机器理解

本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法，同时提取结构化变量和规则，并组成神经模块作为下游 MRC 模型的训练实例的注释，使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上，使用 26 个解释进行监督训练，该方法实现了 70.14% 的 F1 得分，与使用 1100 个标记实例的普通监督学习相比，速度提高了 12 倍。

May, 2020

基于丰富语义表达的神经文本生成

使用神经模型基于最小递归语义 (MRS) 的结构化表示，生成高质量文本，通过将基于依赖关系的 MRS 的线性化映射到英文文本，可以实现 BLEU 得分为 66.11，该方法可通过使用高精度的广覆盖语言模型生成训练语料库得到进一步提升，在完整测试集上达到 77.17，进一步在与银标准数据最接近的测试数据子集上达到 83.37，结果表明 MRS-based 表示是需要同时具有结构化语义和文本生成能力的应用程序的良好选择。

Apr, 2019

机器阅读理解系统调查

本文对 2016 年到 2020 年间关于机器阅读理解方面的 241 篇论文进行了全面的调查，探讨了机器阅读理解的不同方面，包括方法、结构、输入 / 输出和研究的创新之处，并论述了研究的重点发生了变化，从答案提取到答案生成，从单一到多文档阅读理解，从零开始学习到使用预训练的嵌入。同时我们还讨论了这个领域中的流行数据集和评估指标，最后还研究了最常被引用的论文及其贡献。

Jan, 2020

开放式检索式对话式机器阅读

本文提出并研究了对话式机器阅读的开放检索设置。在这种场景下，系统需要从一组规则文本中检索问题相关证据，并以对话方式回答用户的高级问题。我们提出了一个名为 MUDERN 的多段落语篇感知蕴涵推理网络，在我们创建的 OR-ShARC 数据集上实现了最先进的表现，超过了现有的单一段落和新的多段落对话式机器阅读模型。

Feb, 2021

利用多任务学习将关系知识纳入常识阅读理解

本文提出了一种将外部关联知识与多任务学习相结合的方法，以提高机器阅读理解的效果，并在两个多选基准数据集上进行了实验，结果表明该方法在常识推理方面表现优异。

Aug, 2019

带信息搜索代理的交互式机器阅读理解

通过重新设计现有的机器阅读理解数据集，将其转化为互动、部分可观察的环境，加入上下文命令并训练模型，有望将模型扩展到面向 Web 级别的 QA 场景。

Aug, 2019

教模型在理解文档后回答问题

提出了一种两阶段知识蒸馏方法，通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档，实验结果表明，使用该方法装备的学生模型具有显著的改进，证明了该方法的有效性。

Jul, 2023