搜狗机器阅读理解工具包

Mar, 2019

Sogou Machine Reading Comprehension Toolkit

Jindou Wu, Yunlun Yang, Chao Deng, Hongyi Tang, Bingning Wang...

TL;DR本文介绍了Sogou Machine Reading Comprehension (SMRC)工具包，其中包括数据集读取器、灵活的预处理流程、神经网络组件和内置模型。通过使用该工具包，可以更加快速和高效地开发现代的机器阅读理解模型。

Abstract

machine reading comprehension have been intensively studied in recent years, and neural network-based models have shown dominant performances. In this paper, we present a Sogou machine reading comprehension (SMRC

发现论文，激发创造

DuoRC: 以复述阅读理解实现复杂语言理解

我们提出了DuoRC，这是一个新的阅读理解（RC）数据集，用于推动神经方法在语言理解方面面临新的挑战，并位于所有现有RC数据集所没有的地方。该数据集包含从7680对电影情节中创建的186,089个独特的问答对，其中每个对代表用两个不同的版本（一个来自维基百科，另一个来自IMDb）编写的相同电影的两个版本。我们要求众包工作者从一个版本的情节中创建问题，并要求另一组工作者从另一个版本中提取或综合回答。

Apr, 2018

神经机器阅读理解综述

本文旨在介绍如何利用神经网络来构建阅读器，并介绍了一些经典模型，分析了它们所做出的改进，同时指出现有模型的缺陷和未来的研究方向。

Jun, 2019

神经机器阅读理解：方法与趋势

本文综述了深度学习在机器阅读理解(MRC)中的应用，包括典型的MRC任务、神经网络MRC的体系结构和新兴领域。文章指出了未来需要解决的问题。

Jul, 2019

机器阅读理解系统调查

本文对2016年到2020年间关于机器阅读理解方面的241篇论文进行了全面的调查，探讨了机器阅读理解的不同方面，包括方法、结构、输入/输出和研究的创新之处，并论述了研究的重点发生了变化，从答案提取到答案生成，从单一到多文档阅读理解，从零开始学习到使用预训练的嵌入。同时我们还讨论了这个领域中的流行数据集和评估指标，最后还研究了最常被引用的论文及其贡献。

Jan, 2020

机器阅读理解的回顾式阅读器

本文旨在探索更好的验证模块设计以解决包含难以回答的问题的机器阅读理解任务。我们提出了一个后验阅读器（Retro-Reader），通过将两个阅读和验证策略整合到一起进行机器阅读和理解，旨在模仿人类解决阅读理解问题的过程，并在两个基准 MRC 数据集 SQuAD2.0 和 NewsQA 上取得了最新的最优结果。经过显著性测试，我们的模型明显优于强大的 ELECTRA 和 ALBERT 基线，同时还进行了一系列分析来解释所提出的阅读器的有效性。

Jan, 2020

机器阅读理解Gold标准评估框架

本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现MRC数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在，这些都可能降低阅读理解的复杂性和质量。

Mar, 2020

机器阅读理解的基准评测：心理学视角

该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础，要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力，并通过防止捷径的问题和解释来确保实质性有效性。

Apr, 2020

机器阅读理解：上下文语言模型的作用与发展

本篇综述论文全面比较了机器阅读理解的研究，主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点，并提出了新的分类和分类法，认为机器阅读理解将浅层文本匹配转化为认知推理的领域，同时也深化了从语言处理到语言理解的进展。

May, 2020

机器阅读理解：任务、评价指标和基准数据集综述

本篇论文主要对机器阅读理解（MRC）领域中的任务、数据集、评估指标等方面进行综合调研和分析，发现现有MRC模型虽已超越人类在不同benchmark数据集的表现，但与真实的人类阅读理解能力仍存在很大差距，因此提出了一些未来的研究方向和关键问题。

Jun, 2020

SciMRC：多角度科学机器阅读理解

该研究提出了一个新的多方面的科学机器阅读理解数据集SciMRC，由741篇科学论文和6,057个问题答案对构成，并利用预训练模型进行了广泛的实验，表明了考虑不同阅读角度的重要性，并证明了其机器理解的挑战性。

Jun, 2023