基于维基百科语料库的问答分析
本文提出使用维基百科作为唯一知识源来解决开放领域问题回答,提出了一种基于大二元哈希和 TF-IDF 匹配的搜索组件与训练于维基段落中检测答案的多层循环神经网络模型的结合方法,同时现有数据集的实验结果表明,这两个模块都是高度竞争力的,并且使用远程监督进行多任务学习的组合是这个具有挑战性任务的有效完整系统。
Mar, 2017
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016
本文提出了基于 RNN 和神经模型的信息检索和理解两个步骤的开放域问答系统来解决信息检索的问题,并在 Wiki Movies 数据集上达到了最先进的表现,通过减少 40% 的错误率来证明了每个组件的重要性。
Mar, 2017
本文提出了一个神经网络的方法,该方法应用核心指代知识来产生覆盖单句以外内容的维基百科相关问题 - 答案对,并通过对一百万个这些问题 - 答案对的定性分析表明了该系统的有效性。
May, 2018
该研究提出了基于评论的问答系统,并介绍了一个新的数据集和结合信息检索和阅读理解模型的方法以生成答案。研究评估了许多答案生成模型并提出了强有力的基线,证明了这个新任务的挑战性。
Aug, 2019
本研究旨在探索使用 Wikipedia 的文本信息和添加更多的训练数据来解决在科学等学科领域中的多项选择题答题任务,实验表明,我们的方法在准确性上相较于先前的最先进技术获得了显著的提升。
Feb, 2019
本文的主要研究领域是关于自动问答,重点介绍了知识图谱、非结构化文本和混合语料库等来源的家族算法,并讨论了每个子主题中涉及的复杂性问题和系统中介绍的可解释性和互动性程度,最后总结了 QA 领域的最具前景的新兴趋势。
Apr, 2020
本文比较了六个知识库问答系统在八个基准数据集上的表现,研究了各种问题类型、属性、语言和领域,提出了一个高级的映射算法来帮助现有模型取得更好的结果,并开发了一个 COVID-KGQA 的多语言语料库来鼓励 COVID-19 研究和多语言多样性的未来 AI,此外还讨论了主要发现及其影响、性能指南和一些未来改进。
Nov, 2022
本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集,这个数据集可以用于语言学习者的自然语言处理应用,并介绍了以这个数据集为基础的三个任务:1)回答质量分类、2)语义搜索查找相似问题和 3)回答生成,并展示了当前基于 Transformer 模型的优缺点和基线方法。该数据集和脚本已经公开发布用于未来的研究。
May, 2022