HybridQA: 表格和文本数据的多跳问答数据集

EMNLPApr, 2020

HybridQA: 表格和文本数据的多跳问答数据集

HybridQA: A Dataset of Multi-Hop Question Answering over Tabular and Textual Data

Wenhu Chen, Hanwen Zha, Zhiyu Chen, Wenhan Xiong, Hong Wang...

TL;DRHybridQA 是一个基于异构信息的新的大规模问答数据集，通过对表格和文本信息的聚合完成问答，结果表明使用异构信息的混合模型可以获得高于基准模型的精确度。

Abstract

Existing question answering datasets focus on dealing with homogeneous information, based either only on text or KB/Table information alone. However, as human knowledge is distributed over heterogeneous forms, using homogeneous information alone might lead to severe coverage problems. To fill in the gap, we present →

question-answering dataset heterogeneous information wikipedia table text information hybridqa

发现论文，激发创造

科学表格的标签问答模型有多稳健？使用自定义数据集的研究

研究报告通过构建新的 SciTabQA 数据集评估现有的科学混合表格问答模型的稳健性和性能，发现表格问答模型在科学信息上的解释能力较低，需要进一步改进。

Mar, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

TAT-QA：面向金融领域表格和文本混合内容的问答基准

本文提出了一个新的 QA 数据集 TAT-QA，并提出了一个新的 QA 模型 TAGOP，该模型可以同时推理表格和文本的含义，但该模型的 F1 值达到了 58.0％，距离专家水平还有较大的差距（90.8％），本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。

May, 2021

表格与文本的开放式问题回答

该论文研究了开放式问答系统（QA）在同时检索结构化表格和非结构化文本数据时的困难之处，并提出了两种新技术以提高检索准确率，让模型的精确匹配得分提高至 27% 以上，这为该领域的未来研究提供了重要的参考价值。

Oct, 2020

S$^3$HQA：用于多跳文本 - 表格混合问答的三阶段方法

在本文中，我们提出了一个三阶段的 TextTableQA 框架 S3HQA，它包括检索器、选择器和推理器。在推理操作方面，我们采用了基于生成模型的推理器，包括一种行生成器和 LLM 提示生成器 (首次在这一任务中使用)。实验结果表明，我们的方法在少样本情况下取得了竞争性成果。当在整个数据集上训练时，我们的方法优于所有基线方法，在 HybridQA 排行榜上排名第一。

May, 2023

MultiTabQA：为多表问答生成表格答案

本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标，我们评估了生成的表格。经过在三个数据集（Spider、Atis 和 GeoQuery）上微调后，MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。

May, 2023

面向开放域问答的混合文本和表格证据的双重阅读器 - 解析器

本文提出一种混合型框架，将文本和表格式证据作为输入，根据问题生成直接答案或 SQL 查询，并在几个开放领域问题回答（ODQA）数据集上表现出了明显优于基线模型的表现。在详细的分析中，证明生成结构化 SQL 查询将始终带来收益，尤其是对于那些需要复杂推理的问题。这是第一个将 Text2SQL 应用于 ODQA 任务的论文。

Aug, 2021

KET-QA：用于知识增强表格问答的数据集

这篇论文介绍了一种使用知识库作为表格问答的外部知识源，并构建了一个带有精细化知识注释的数据集 KET-QA。通过设计检索 - 推理结构化流水线模型，实验结果表明，该模型在三个不同场景（微调、零样本和少样本）中相对性能提升范围为 1.9 至 6.5 倍，绝对性能提升范围为 11.66% 至 44.64%。然而，即使是最好的模型也只达到了 60.23% 的 EM 得分，仍然落后于人类水平，突显了 KET-QA 对问答研究领域的挑战性。

May, 2024

大规模混合知识图谱上的问答系统

BigText-QA 旨在开发一个综合 QA 系统，它能够回答基于一个知识图谱（KG）的更冗余形式的问题，该图谱将结构化和非结构化（即 “混合”）知识组织在统一的图形表示中，既有一个命名实体的规范集合，又有提供高度多样化的关系释义和丰富上下文信息的文本子句的开放集合。

Dec, 2022

FeTaQA：自由形式表格问答

本篇论文介绍了 FeTaQA 数据集，该数据集包含 10K 个基于维基百科的 {表格，问题，自由形式答案，支持表格单元格} 对，可以用于进行表格问答系统的复杂推理和信息集成；并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成模型的端到端方法来处理该任务。

Apr, 2021