神经机器阅读理解:方法与趋势
本篇综述论文全面比较了机器阅读理解的研究,主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点,并提出了新的分类和分类法,认为机器阅读理解将浅层文本匹配转化为认知推理的领域,同时也深化了从语言处理到语言理解的进展。
May, 2020
本篇论文主要对机器阅读理解(MRC)领域中的任务、数据集、评估指标等方面进行综合调研和分析,发现现有 MRC 模型虽已超越人类在不同 benchmark 数据集的表现,但与真实的人类阅读理解能力仍存在很大差距,因此提出了一些未来的研究方向和关键问题。
Jun, 2020
提出了一种两阶段知识蒸馏方法,通过将 MRC 任务分为两个单独阶段教导模型更好地理解文档,实验结果表明,使用该方法装备的学生模型具有显著的改进,证明了该方法的有效性。
Jul, 2023
该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础,要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力,并通过防止捷径的问题和解释来确保实质性有效性。
Apr, 2020
本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法,同时提取结构化变量和规则,并组成神经模块作为下游 MRC 模型的训练实例的注释,使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上,使用 26 个解释进行监督训练,该方法实现了 70.14% 的 F1 得分,与使用 1100 个标记实例的普通监督学习相比,速度提高了 12 倍。
May, 2020
本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现 MRC 数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在,这些都可能降低阅读理解的复杂性和质量。
Mar, 2020
本文对 2016 年到 2020 年间关于机器阅读理解方面的 241 篇论文进行了全面的调查,探讨了机器阅读理解的不同方面,包括方法、结构、输入 / 输出和研究的创新之处,并论述了研究的重点发生了变化,从答案提取到答案生成,从单一到多文档阅读理解,从零开始学习到使用预训练的嵌入。同时我们还讨论了这个领域中的流行数据集和评估指标,最后还研究了最常被引用的论文及其贡献。
Jan, 2020