TechQA 数据集

Nov, 2019

The TechQA Dataset

Vittorio Castelli, Rishav Chakravarti, Saswati Dana, Anthony Ferritto, Radu Florian...

TL;DR介绍了 TechQA 数据集，它包含了真实世界的技术支持领域中用户提出的问题，是一个用于领域自适应问题回答研究的资源，并提供了 801,998 个 IBM Technote 作为预训练数据集。

Abstract

We introduce techqa, a domain-adaptation question answering dataset for the technical support domain. The techqa corpus highlights two rea

techqa domain-adaptation question-answering technical-support ibm-technote

发现论文，激发创造

CodeQA: 一个面向源代码理解的问答数据集

提出了 CodeQA，一个免费的自由格式问题回答数据集，旨在实现源代码理解：给定代码片段和问题，需要生成文本答案。包含 119,778 个 Java 问题 - 答案对和 70,085 个 Python 问题 - 答案对的 CodeQA 数据集。通过语法规则和语义分析将代码注释转换为问题 - 答案对。对数据集进行了系统分析，并展示了几个神经网络的实验结果。尽管关于问题回答和机器阅读理解的研究发展迅速，但很少有先前的工作关注代码问题回答。这个新数据集可以作为源代码理解研究的有用基准。

Sep, 2021

跨任务和领域的技术问答

本文提出了一种基于深度迁移学习的可调节联合学习方法，以有效地解决技术问答中的文档检索和阅读理解任务，并在 TechQA 上进行了实验验证，相较于现有方法表现更为优越。

Oct, 2020

NewsQA: 一个机器阅读理解数据集

为了增加推理能力，我们通过四个阶段的过程收集有超过 10,000 篇 CNN 新闻文章的人类生成的问题 - 答案对的数据集 NewsQA，该数据集超过 100,000 个 QA 对，由众包工人提供，答案包含想对应文章的文本内容片段。人类的表现比现有神经模型的性能更好，这表明未来的研究可以在 NewsQA 上取得显著的进展。

Nov, 2016

CS1QA：面向初级编程课程的代码问答辅助数据集

CS1QA 是一个用于编程教育领域中的基于代码的问答数据集，由 Python 入门编程课程的聊天记录中的 9237 个问题 - 答案对和 17698 个未注释的带代码的聊天数据组成，可以用作来源码理解和问答的基准。

Oct, 2022

SearchQA：一份由搜索引擎中加强了语境的新问答数据集

该研究提出了一个名为 SearchQA 的数据集，该数据集用于机器理解和问答，并通过从 J! Archive 爬取的现有问题 - 答案配对及 Google 检索的文本片段进行扩充。在 SearchQA 中，包含了 14 万个问题 - 答案对，每个对平均包含 49.6 个片段。使用人类评估以及两种基准方法进行测试，研究显示了人类和机器表现之间的显著差距，表明所提出的数据集可作为问答的基准。

Apr, 2017

通过对话问答访问特定领域的常见问题解答

使用 Wizard of Oz 的方法结合众包技术，从三个 Stack Exchange 网站收集了 2437 组对话和 10917 个问答信息，构建了 DoQA 数据集，为 FAQ 站点中的大量领域特定信息构建了面向对话的问答（QA）界面，并介绍了更多的实际检索信息场景，取得了良好的性能。

May, 2020

TriviaQA：一个大规模远程监督的挑战性阅读理解数据集

TriviaQA 是一个具有挑战性的阅读理解数据集，包含超过 650k 个问题 - 答案 - 证据三元组，该数据集需要进行跨句子推理和包含看似复杂、组合式、句法和词汇变化巨大的问题，并提供了两种基线算法：基于特征的分类器和最先进的神经网络，它们在 SQuAD 阅读理解上表现良好，但都无法接近人类表现（23％和 40％与 80％），因此需要进一步的研究。

May, 2017

CCQA：用于模型预训练的新型 Web 规模问答数据集

本文提出一种在 Common Crawl 项目的基础上，使用大规模、自然、多样化问答数据集进行领域内预训练的方法，该方法可以用于 open-domain question-answering 任务中的零样本、低资源和微调设置，展示了预训练在该任务中的潜力。

Oct, 2021

ComQA: 一个社区资源的复杂事实问题问答数据集，包含释义聚类

介绍一个包含生产用户问题数据集的基于 WikiAnswers 平台的 ComQA 数据集，包含 11,214 个问题，涵盖了组成性的、时间推理和比较等不同挑战方面。该数据集通过大规模众包清理问题、分组和注释，以及分析数据集和现有系统对其的结果，对 QA 领域未来的研究提供了驱动作用。

Sep, 2018

航空行业复杂表格的问答数据集

该研究主要介绍了一个针对航空业公司数据集的领域特定的表格问答数据集 AIT-QA，分析了使用 Transformer 模型进行 Table QA 的现有方法在处理领域特定的表格数据时面临的挑战，并提出了一些实用的表格预处理步骤。

Jun, 2021