Cosmos QA: 带有上下文常识推理的机器阅读理解

EMNLPAug, 2019

Cosmos QA: 带有上下文常识推理的机器阅读理解

Cosmos QA: Machine Reading Comprehension with Contextual Commonsense Reasoning

Lifu Huang, Ronan Le Bras, Chandra Bhagavatula, Yejin Choi

TL;DR本文介绍了 Cosmos QA，这是一个大规模的基于常识的阅读理解数据集，旨在帮助机器阅读人们日常故事时理解其中的隐含意思，并提出了一种新的神经网络结构来处理此类问题。实验结果表明，机器与人类的阅读理解性能存在明显差距，因此还需要进一步研究。

Abstract

Understanding narratives requires reading between the lines, which in turn, requires interpreting the likely causes and effects of events, even when they are not mentioned explicitly. In this paper, we introduce Cosmos QA, a large-scale →

narratives reading comprehension commonsense dataset neural architectures

发现论文，激发创造

CommonsenseQA：一个针对常识知识的问答挑战

该论文提出了一个常识问答的新数据集 ——CommonsenseQA，并采用了多个目标概念，旨在提高常识推理的难度，在使用 BERT-large 作为基线方法的情况下，最佳准确率为 56%。

Nov, 2018

LogiQA：面向机器阅读理解的逻辑推理挑战数据集

通过构建名为 LogiQA 的全面数据集，了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明，最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。

Jul, 2020

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

COSMO: 基于条件 SEQ2SEQ 的混合模型，用于零样本常识问答

本研究介绍了一种基于 Condition SEQ2SEQ 混合模型（COSMO）来生成具有动态性和多样性的内容的方法，用于上下文相关的通识推理，通过生成通识知识图谱，以实现零样本通识问题回答，并且实验结果表明，与现有技术相比，COSMO 在该领域性能提高了 5.2%。

Nov, 2020

COM2SENSE：具备互补句子的常识推理基准

本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性，并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集，通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析，并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明，我们最强的基线模型在微调后达到了约 71％的标准准确性和约 51％的成对准确性，远低于人类表现。

Jun, 2021

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

CoQA: 一项面向对话的问题回答挑战

本篇论文提出了一种建立对话式问答系统的新数据集 CoQA，包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题，分析表明，这些问题比现有的阅读理解数据集具有更多挑战性和难点，需要针对性的解决方案，评测结果显示目前最好的系统 F1 得分为 65.4％，仍然有大量的改进空间。

Aug, 2018

ReviewQA：一个基于关系和方面的意见阅读数据集

本文介绍了一种基于酒店评论的问题回答数据集 ReviewQA，旨在评估模型的关联理解和能力，并提供了几种基线模型的实现。

Oct, 2018

上下文问答

本研究提出了一种基于对话的问答数据集 QuAC，其包含 14K 个信息寻求问答对话（共 100K 个问题），并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明，QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义，还报告了许多参考模型的结果，包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1，这表明还有很大的未来工作空间。

Aug, 2018

带有循环记忆的段落级通识理解 Transformer

我们提出了一种任务，即基于语篇的通识推理，在保持与叙述其余部分的一致性的同时，在预定义的维度上生成常识推断。使用可用的句级注释，我们有效且自动地构建了一个远程监督语料库，使用该语料库，我们训练了 PARA-COMET，这是一种基于语篇的模型，它捕获关于先前世界知识的语义知识和涉及如何将当前事件与叙述中先前和未来事件相关联的情节知识。我们的结果表明，PARA-COMET 在生成既连贯又新颖的推断方面优于句级基准。

Oct, 2020