Yahoo 查询树库，V. 1.0

ACLMay, 2016

The Yahoo Query Treebank, V. 1.0

PDF

Yuval Pinter, Roi Reichart, Idan Szpektor

TL;DRYahoo Webscope 发布的 Query Treebank 版本 1.0 的描述和注释指南。

Abstract

A description and annotation guidelines for the yahoo webscope release of query treebank, Version 1.0, May 2016.

yahoo webscope query treebank annotation guidelines

发现论文，激发创造

基于示例的语法搜索

本文提出了一种使用依存语法图的句法模式来搜索大型语言学注释语料库的系统，并介绍了一种轻量级查询语言，让用户无需了解底层语法表示的细节，而是通过提供具有简单标记的示例句子来查询。

Jun, 2020

一款越南问答系统

该篇论文提出了一个基于本体论的越南问答系统，通过自然语言的形式使用越南语提问，从而产生精确的答案，实验结果表明该系统在组织本体论方面有良好的效果。

Nov, 2019

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

走向语义网上的问答系统

本文提出了一种基于 SPARQL 查询的多语言语义 Web 知识库问答（QA）方法，能够查询多个知识库，可轻松移植到其他知识库和语言。通过对五个不同的知识库和五种语言的评估，证明了该方法的影响。

Mar, 2018

基于半结构化阿育吠陀文本的语义注释和查询框架

本文描述了手动注释梵文文本，为知识图创建做出了努力。构建的知识图包含 410 个实体和 764 个关系，涵盖了 Bhavaprakashanighantu 的各种属性。

Feb, 2022

QA 数据集爆炸：问答和阅读理解的自然语言处理资源分类

本文回顾了近年来深度学习模型在自然语言处理中的研究，并着重探讨了问题回答和阅读理解方面逾 80 种新数据集。除此之外，对现有各种格式和领域的资源进行了总结，并提出了新的技能分类法以及对过度专注于英语的影响。最后旨在为从业者和研究人员提供指引。

Jul, 2021

使用分层表示进行任务导向对话的语义解析

本文提出了一种基于层级标注的语义解析方案，能够有效且准确地分析复杂的组合查询，同时发布了包含 44000 个标注查询的数据集，并证明此方案在标准句法分析模型上的表现优于序列到序列的方案。

Oct, 2018

NewsQs: 多源信息提问

我们提供了一个名为 NewsQs (新闻提示) 的数据集，其中提供了多篇新闻文档的问题 - 回答对。通过在 News On the Web 语料库的 FAQ 样式新闻文章上对 T5-Large 模型进行微调，我们创造了 NewsQs，并自动生成了问题。我们证明，使用控制代码对模型进行微调可以生成更容易被人们接受的问题，与没有使用控制代码的相同模型相比，在人类评价中表现更好。我们使用与人类注释具有高相关性的 QNLI 模型来过滤数据。我们将我们的最终高质量问题、答案和文档聚类数据集作为资源，用于未来的基于查询的多文档摘要研究。

Feb, 2024

Schema2QA: 面向结构化 Web 的高质量低成本问答代理

本文提出了 Schema2QA 工具包，使用少量注释构建数据库模式，基于 BERT 预训练模型的神经网络训练从通用查询模板合成的大量领域内问题，并采用合成数据和少量释义数据生成 QA 系统，可用于餐厅、人物、电影、书籍和音乐等领域，无需额外手动努力即可创建同一数据库模式的任何网站得到 QA 代理。模型在 Schema.org 中表现优异。

Jan, 2020

JaQuAD: 用于机器阅读理解的日语问答数据集

本文提出了 JaQuAD 数据集，它是一种由人类注释的日语问答数据集，用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调，测试数据集上的 F1 得分为 78.92％，EM 为 63.38％。

Feb, 2022