搜狗机器阅读理解工具包
我们提出了DuoRC,这是一个新的阅读理解(RC)数据集,用于推动神经方法在语言理解方面面临新的挑战,并位于所有现有RC数据集所没有的地方。该数据集包含从7680对电影情节中创建的186,089个独特的问答对,其中每个对代表用两个不同的版本(一个来自维基百科,另一个来自IMDb)编写的相同电影的两个版本。我们要求众包工作者从一个版本的情节中创建问题,并要求另一组工作者从另一个版本中提取或综合回答。
Apr, 2018
本文对2016年到2020年间关于机器阅读理解方面的241篇论文进行了全面的调查,探讨了机器阅读理解的不同方面,包括方法、结构、输入/输出和研究的创新之处,并论述了研究的重点发生了变化,从答案提取到答案生成,从单一到多文档阅读理解,从零开始学习到使用预训练的嵌入。同时我们还讨论了这个领域中的流行数据集和评估指标,最后还研究了最常被引用的论文及其贡献。
Jan, 2020
本文旨在探索更好的验证模块设计以解决包含难以回答的问题的机器阅读理解任务。我们提出了一个后验阅读器(Retro-Reader),通过将两个阅读和验证策略整合到一起进行机器阅读和理解,旨在模仿人类解决阅读理解问题的过程,并在两个基准 MRC 数据集 SQuAD2.0 和 NewsQA 上取得了最新的最优结果。经过显著性测试,我们的模型明显优于强大的 ELECTRA 和 ALBERT 基线,同时还进行了一系列分析来解释所提出的阅读器的有效性。
Jan, 2020
本论文提出了一个统一框架来系统研究现有的语言特征、推理需求、背景知识和事实正确性以及词汇线索的存在。研究结果发现MRC数据存在词汇歧义、答案事实正确性的差异和词汇线索的存在,这些都可能降低阅读理解的复杂性和质量。
Mar, 2020
该论文提出了基于心理学和心理测量学的 MRC 数据集设计理论基础,要求未来的数据集应该评估模型构建上下文相关情境的合理和连贯的表示能力,并通过防止捷径的问题和解释来确保实质性有效性。
Apr, 2020
本篇综述论文全面比较了机器阅读理解的研究,主要介绍了它的起源、发展历程、对 NLP 社区的影响、定义、数据集、技术方法、研究亮点,并提出了新的分类和分类法,认为机器阅读理解将浅层文本匹配转化为认知推理的领域,同时也深化了从语言处理到语言理解的进展。
May, 2020
本篇论文主要对机器阅读理解(MRC)领域中的任务、数据集、评估指标等方面进行综合调研和分析,发现现有MRC模型虽已超越人类在不同benchmark数据集的表现,但与真实的人类阅读理解能力仍存在很大差距,因此提出了一些未来的研究方向和关键问题。
Jun, 2020
该研究提出了一个新的多方面的科学机器阅读理解数据集SciMRC,由741篇科学论文和6,057个问题答案对构成,并利用预训练模型进行了广泛的实验,表明了考虑不同阅读角度的重要性,并证明了其机器理解的挑战性。
Jun, 2023