揭示语义检索对大规模机器阅读的重要性
本研究提出一种简单而有效的方法,通过使用监督多任务学习,将 IR 和 RC 任务结合起来,以考虑答案跨度来训练 IR 组件,实现大规模机器阅读,从而取得了最先进的表现。
Aug, 2018
本研究提出一种深度串级学习模型来平衡在线问答系统的效能和效率之间的基本权衡,在多文档的 MRC 场景中取得更好的效果并能够在不到 50 毫秒内稳定地为数百万日请求提供服务。
Nov, 2018
本篇研究报告讲述 SemSRL 应用在预训练语言模型中以提高 Retro-Reader 在越南语阅读理解任务上的性能表现
Jan, 2023
本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法,同时提取结构化变量和规则,并组成神经模块作为下游 MRC 模型的训练实例的注释,使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上,使用 26 个解释进行监督训练,该方法实现了 70.14% 的 F1 得分,与使用 1100 个标记实例的普通监督学习相比,速度提高了 12 倍。
May, 2020
使用神经模型基于最小递归语义 (MRS) 的结构化表示,生成高质量文本,通过将基于依赖关系的 MRS 的线性化映射到英文文本,可以实现 BLEU 得分为 66.11,该方法可通过使用高精度的广覆盖语言模型生成训练语料库得到进一步提升,在完整测试集上达到 77.17,进一步在与银标准数据最接近的测试数据子集上达到 83.37,结果表明 MRS-based 表示是需要同时具有结构化语义和文本生成能力的应用程序的良好选择。
Apr, 2019
本文对 2016 年到 2020 年间关于机器阅读理解方面的 241 篇论文进行了全面的调查,探讨了机器阅读理解的不同方面,包括方法、结构、输入 / 输出和研究的创新之处,并论述了研究的重点发生了变化,从答案提取到答案生成,从单一到多文档阅读理解,从零开始学习到使用预训练的嵌入。同时我们还讨论了这个领域中的流行数据集和评估指标,最后还研究了最常被引用的论文及其贡献。
Jan, 2020
本文提出并研究了对话式机器阅读的开放检索设置。在这种场景下,系统需要从一组规则文本中检索问题相关证据,并以对话方式回答用户的高级问题。我们提出了一个名为 MUDERN 的多段落语篇感知蕴涵推理网络,在我们创建的 OR-ShARC 数据集上实现了最先进的表现,超过了现有的单一段落和新的多段落对话式机器阅读模型。
Feb, 2021
本文提出了一种将外部关联知识与多任务学习相结合的方法,以提高机器阅读理解的效果,并在两个多选基准数据集上进行了实验,结果表明该方法在常识推理方面表现优异。
Aug, 2019
通过重新设计现有的机器阅读理解数据集,将其转化为互动、部分可观察的环境,加入上下文命令并训练模型,有望将模型扩展到面向 Web 级别的 QA 场景。
Aug, 2019
提出了一种两阶段知识蒸馏方法,通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档,实验结果表明,使用该方法装备的学生模型具有显著的改进,证明了该方法的有效性。
Jul, 2023