Cosmos QA: 带有上下文常识推理的机器阅读理解
该论文提出了一个常识问答的新数据集 ——CommonsenseQA,并采用了多个目标概念,旨在提高常识推理的难度,在使用 BERT-large 作为基线方法的情况下,最佳准确率为 56%。
Nov, 2018
通过构建名为 LogiQA 的全面数据集,了解了人类逻辑推理能力方面的基本能力在机器阅读中如何得到充分研究。结果表明,最先进的神经模型远不及人类的水平。其数据集也可作为深度学习 NLP 环境下重新研究逻辑 AI 的基准。
Jul, 2020
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本研究介绍了一种基于 Condition SEQ2SEQ 混合模型(COSMO)来生成具有动态性和多样性的内容的方法,用于上下文相关的通识推理,通过生成通识知识图谱,以实现零样本通识问题回答,并且实验结果表明,与现有技术相比,COSMO 在该领域性能提高了 5.2%。
Nov, 2020
本文旨在探讨预训练语言模型在常识推理数据集中的可靠性和全面性,并提出了一个新的包含自然语言真 / 假语句对的常识推理基准数据集,通过对不同维度的领域的知识、推理场景以及数学的设计来促进常识能力的系统分析,并设计了成对精度度量标准来可靠地衡量代理的常识推理能力。实验结果表明,我们最强的基线模型在微调后达到了约 71%的标准准确性和约 51%的成对准确性,远低于人类表现。
Jun, 2021
TriviaQA 是一个具有挑战性的阅读理解数据集,包含超过 650k 个问题 - 答案 - 证据三元组,该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题,并提供了两种基线算法:基于特征的分类器和最先进的神经网络,它们在 SQuAD 阅读理解上表现良好,但都无法接近人类表现(23%和 40%与 80%),因此需要进一步的研究。
May, 2017
本篇论文提出了一种建立对话式问答系统的新数据集 CoQA,包含来自七个不同领域的 8,000 个对话中 127,000 个具有答案的问题,分析表明,这些问题比现有的阅读理解数据集具有更多挑战性和难点,需要针对性的解决方案,评测结果显示目前最好的系统 F1 得分为 65.4%,仍然有大量的改进空间。
Aug, 2018
本研究提出了一种基于对话的问答数据集 QuAC,其包含 14K 个信息寻求问答对话(共 100K 个问题),并且 QuAC 针对其他机器理解数据集中未发现的挑战进行了改进。我们在详细的定性评估中表明,QuAC 的问题通常更具开放性、难以回答或仅在对话上下文中有意义,还报告了许多参考模型的结果,包括最近被扩展为对话上下文模型的最先进的阅读理解体系结构。但是我们最好的模型仍然比人类表现差了 20 个 F1,这表明还有很大的未来工作空间。
Aug, 2018
我们提出了一种任务,即基于语篇的通识推理,在保持与叙述其余部分的一致性的同时,在预定义的维度上生成常识推断。使用可用的句级注释,我们有效且自动地构建了一个远程监督语料库,使用该语料库,我们训练了 PARA-COMET,这是一种基于语篇的模型,它捕获关于先前世界知识的语义知识和涉及如何将当前事件与叙述中先前和未来事件相关联的情节知识。我们的结果表明,PARA-COMET 在生成既连贯又新颖的推断方面优于句级基准。
Oct, 2020