基于维基百科语料库的问答分析

Jan, 2018

Analysis of Wikipedia-based Corpora for Question Answering

Tomasz Jurczyk, Amit Deshmane, Jinho D. Choi

TL;DR此论文在对维基百科的四个语料库：WikiQA、SelQA、SQuAD 和 InfoQA 进行内部和外部分析后，提出了一种基于索引的方法来创建一个用于回答检索的银标准数据集，并建议更好地利用这些语料库来进行统计问答学习。

Abstract

This paper gives comprehensive analyses of corpora based on wikipedia for several tasks in question answering. Four recent →

corpora question answering wikipedia answer retrieval statistical learning

发现论文，激发创造

使用维基百科回答开放领域问题

本文提出使用维基百科作为唯一知识源来解决开放领域问题回答，提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法，同时现有数据集的实验结果表明，这两个模块都是高度竞争力的，并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。

Mar, 2017

SelQA: 基于选项的问答新基准

本篇论文提出了一个新的选择题型问答数据集 SelQA，该数据集通过众包生成问题，并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案，旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上，我们比较了几个系统，为未来的工作提供了强有力的基准结果。

Jun, 2016

通过检索和理解从非结构化文本中进行问答

本文提出了基于 RNN 和神经模型的信息检索和理解两个步骤的开放域问答系统来解决信息检索的问题，并在 Wiki Movies 数据集上达到了最先进的表现，通过减少 40% 的错误率来证明了每个组件的重要性。

Mar, 2017

简单有效的半监督问答

本研究提出一种利用基础文档和少量标注数据进行深度学习提取式问答的方法，并通过对三个不同领域数据集的实验验证了其有效性。

Apr, 2018

从维基百科抽取段落级问题 - 答案对

本文提出了一个神经网络的方法，该方法应用核心指代知识来产生覆盖单句以外内容的维基百科相关问题 - 答案对，并通过对一百万个这些问题 - 答案对的定性分析表明了该系统的有效性。

May, 2018

AmazonQA：一项基于评论的问答任务

该研究提出了基于评论的问答系统，并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线，证明了这个新任务的挑战性。

Aug, 2019

利用外部知识改进问答

本研究旨在探索使用 Wikipedia 的文本信息和添加更多的训练数据来解决在科学等学科领域中的多项选择题答题任务，实验表明，我们的方法在准确性上相较于先前的最先进技术获得了显著的提升。

Feb, 2019

基于筛选和开放网络资源的问答系统

本文的主要研究领域是关于自动问答，重点介绍了知识图谱、非结构化文本和混合语料库等来源的家族算法，并讨论了每个子主题中涉及的复杂性问题和系统中介绍的可解释性和互动性程度，最后总结了 QA 领域的最具前景的新兴趋势。

Apr, 2020

知识库问答的比较研究

本文比较了六个知识库问答系统在八个基准数据集上的表现，研究了各种问题类型、属性、语言和领域，提出了一个高级的映射算法来帮助现有模型取得更好的结果，并开发了一个 COVID-KGQA 的多语言语料库来鼓励 COVID-19 研究和多语言多样性的未来 AI，此外还讨论了主要发现及其影响、性能指南和一些未来改进。

Nov, 2022

ELQA: 英文语言问题及答案语料库

本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集，这个数据集可以用于语言学习者的自然语言处理应用，并介绍了以这个数据集为基础的三个任务：1）回答质量分类、2）语义搜索查找相似问题和 3）回答生成，并展示了当前基于 Transformer 模型的优缺点和基线方法。该数据集和脚本已经公开发布用于未来的研究。

May, 2022