面向韩国的表格问答数据集

Jan, 2022

Korean-Specific Dataset for Table Question Answering

Changwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang...

TL;DR本文构建了韩国特定的数据集，包括 1.4M 个表和 70k 个问题。建立了基于 Transformer 的预训练语言模型以及针对这些数据集进行的表问答模型的微调。

Abstract

Existing question answering systems mainly focus on dealing with text data. However, much of the data produced daily is stored in the form of tables that can be found in documents and relational databases, or on the web. To solve the task of →

question answering table data korean-specific datasets pre-trained language model transformer

发现论文，激发创造

KET-QA：用于知识增强表格问答的数据集

这篇论文介绍了一种使用知识库作为表格问答的外部知识源，并构建了一个带有精细化知识注释的数据集 KET-QA。通过设计检索 - 推理结构化流水线模型，实验结果表明，该模型在三个不同场景（微调、零样本和少样本）中相对性能提升范围为 1.9 至 6.5 倍，绝对性能提升范围为 11.66% 至 44.64%。然而，即使是最好的模型也只达到了 60.23% 的 EM 得分，仍然落后于人类水平，突显了 KET-QA 对问答研究领域的挑战性。

May, 2024

航空行业复杂表格的问答数据集

该研究主要介绍了一个针对航空业公司数据集的领域特定的表格问答数据集 AIT-QA，分析了使用 Transformer 模型进行 Table QA 的现有方法在处理领域特定的表格数据时面临的挑战，并提出了一些实用的表格预处理步骤。

Jun, 2021

TableQA：一个用于表感知 SQL 生成的大规模中文文本到 SQL 数据集

本文介绍了 TableQA dataset 及其挑战性和必要性，探讨了解决不同条件值表述和表格外查询的问题的两种基于表格知识的方法，并给出实验结果。

Jun, 2020

HybridQA: 表格和文本数据的多跳问答数据集

HybridQA 是一个基于异构信息的新的大规模问答数据集，通过对表格和文本信息的聚合完成问答，结果表明使用异构信息的混合模型可以获得高于基准模型的精确度。

Apr, 2020

MultiTabQA：为多表问答生成表格答案

本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标，我们评估了生成的表格。经过在三个数据集（Spider、Atis 和 GeoQuery）上微调后，MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。

May, 2023

表格问答调查：最新进展

该研究调查了目前表格问答的数据集和方法，并将现有的表格问答方法分类为五类，即基于语义解析的、生成式的、提取式的、基于匹配的和检索式的方法。此外，研究还提出了该领域的一些主要挑战和未来方向。

Jul, 2022

基于密集检索的表格开放领域问答

本研究针对开放领域问题回答系统的表格数据提出了一种有效的检索方法，并通过训练和挖掘难例等技术，提高了回答的准确性和表现。

Mar, 2021

FeTaQA：自由形式表格问答

本篇论文介绍了 FeTaQA 数据集，该数据集包含 10K 个基于维基百科的 {表格，问题，自由形式答案，支持表格单元格} 对，可以用于进行表格问答系统的复杂推理和信息集成；并提出了一个基于语义解析的 QA 系统和一个基于大型预训练文本生成模型的端到端方法来处理该任务。

Apr, 2021

可迁移的表格问答

本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS，模拟了实际主题转移场景，并提出了适用于 TableQA 的 T3QA（主题可转移的表格问题回答）方案，包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。

Sep, 2021

科学表格的标签问答模型有多稳健？使用自定义数据集的研究

研究报告通过构建新的 SciTabQA 数据集评估现有的科学混合表格问答模型的稳健性和性能，发现表格问答模型在科学信息上的解释能力较低，需要进一步改进。

Mar, 2024