MCScript2.0:一个机器理解语料库,侧重于剧本事件和参与者
该研究介绍了一种大规模的、关于叙事文本及其相关问题的数据集,用于进行需要运用常识以及剧本知识推理的机器理解任务,该数据集与现有的类似数据集的区别在于,它侧重于关于日常活动的故事,并且其问题需要常识知识或者更具体地说是剧本知识来回答。通过众包策略收集数据,该数据集提供了实际推理方面的大量问题,并被用于 SemEval 2018 中的关于常识和剧本知识的共享任务,并为更广泛的自然语言理解社区提供了具有挑战性的测试用例。
Mar, 2018
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本文介绍一个新的 “Story Cloze Test” 框架来测试一个系统对五句子情景的理解和故事学习,同时介绍了用于此框架的新语料库 ROCStories,用于在日常事件之间捕捉因果和时间共识关系的同时收集高质量的日常生活故事。实验证明现有的浅层语言理解模型不能高分通过 Story Cloze 测试,这对剧本和故事的学习提出深层次的理解建议。
Apr, 2016
本文介绍了一个针对中文机器阅读理解的 Span-Extraction 数据集及其挑战集,共包含近 20,000 个人类专家在维基百科段落中标注的真实问题,并发布了 CMRC 2018 的评估工作坊,旨在进一步推进中文机器阅读理解研究。
Oct, 2018
通过重新设计现有的机器阅读理解数据集,将其转化为互动、部分可观察的环境,加入上下文命令并训练模型,有望将模型扩展到面向 Web 级别的 QA 场景。
Aug, 2019
本文提出了一种用于机器理解阅读测试的科学方法,引入了新颖的词法控制机制,通过注意力机制和记忆网络指导机器进行交互式阅读,并添加检查层来细化答案以提高正确性,实验证明该方法在 SQuAD 和 TriviaQA 两个常用数据集上的表现优于大多数现有的解决方案。
Oct, 2017
介绍了一个大规模的机器阅读理解数据集 MS MARCO,由真实用户的查询日志中提取了 1010916 个问题和 8881823 个网页文本,并提供了三个任务用于评估及基准测试,即根据一些上下文语境回答问题、生成可理解的答案和给定问题评分。
Nov, 2016
通过自然语言查询,建立了 ESTER 数据集,针对五种最常见的事件语义关系,提供了超过 6,000 个问题和 10,100 个事件关系对,实验结果表明,当前的 SOTA 系统表现明显低于人类表现,并凸显我们的数据集作为一个具有挑战性的基准。
Apr, 2021
本文提出了一种使用少量半结构化解释 “教” 机器阅读理解的方法,同时提取结构化变量和规则,并组成神经模块作为下游 MRC 模型的训练实例的注释,使用可学习的神经模块和软逻辑来处理语言变化并克服模型覆盖率不足。在 SQuAD 数据集上,使用 26 个解释进行监督训练,该方法实现了 70.14% 的 F1 得分,与使用 1100 个标记实例的普通监督学习相比,速度提高了 12 倍。
May, 2020