Yahoo 查询树库,V. 1.0
本文提出了一种使用依存语法图的句法模式来搜索大型语言学注释语料库的系统,并介绍了一种轻量级查询语言,让用户无需了解底层语法表示的细节,而是通过提供具有简单标记的示例句子来查询。
Jun, 2020
为了增加推理能力,我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA,该数据集超过 100,000 个 QA 对,由众包工人提供,答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好,这表明未来的研究可以在 NewsQA 上取得显著的进展。
Nov, 2016
本文提出了一种基于 SPARQL 查询的多语言语义 Web 知识库问答(QA)方法,能够查询多个知识库,可轻松移植到其他知识库和语言。通过对五个不同的知识库和五种语言的评估,证明了该方法的影响。
Mar, 2018
本文描述了手动注释梵文文本,为知识图创建做出了努力。构建的知识图包含 410 个实体和 764 个关系,涵盖了 Bhavaprakashanighantu 的各种属性。
Feb, 2022
本文回顾了近年来深度学习模型在自然语言处理中的研究,并着重探讨了问题回答和阅读理解方面逾 80 种新数据集。除此之外,对现有各种格式和领域的资源进行了总结,并提出了新的技能分类法以及对过度专注于英语的影响。最后旨在为从业者和研究人员提供指引。
Jul, 2021
本文提出了一种基于层级标注的语义解析方案,能够有效且准确地分析复杂的组合查询,同时发布了包含 44000 个标注查询的数据集,并证明此方案在标准句法分析模型上的表现优于序列到序列的方案。
Oct, 2018
我们提供了一个名为 NewsQs (新闻提示) 的数据集,其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调,我们创造了 NewsQs,并自动生成了问题。我们证明,使用控制代码对模型进行微调可以生成更容易被人们接受的问题,与没有使用控制代码的相同模型相比,在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源,用于未来的基于查询的多文档摘要研究。
Feb, 2024
本文提出了 Schema2QA 工具包,使用少量注释构建数据库模式,基于 BERT 预训练模型的神经网络训练从通用查询模板合成的大量领域内问题,并采用合成数据和少量释义数据生成 QA 系统,可用于餐厅、人物、电影、书籍和音乐等领域, 无需额外手动努力即可创建同一数据库模式的任何网站得到 QA 代理。 模型在 Schema.org 中表现优异。
Jan, 2020
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78.92%,EM 为 63.38%。
Feb, 2022