TabIQA：企业文档图像中针对表格的问答

Mar, 2023

TabIQA：企业文档图像中针对表格的问答

TabIQA: Table Questions Answering on Business Document Images

Phuc Nguyen, Nam Tuan Ly, Hideaki Takeda, Atsuhiro Takasu

TL;DR介绍了一种新的流程 TabIQA，它使用最先进的深度学习技术从图像中提取表格内容和结构信息，能够回答与数字数据、文本信息和结构化表格相关的各种问题，并且在回答与表格相关的问题方面取得了良好的成绩。

Abstract

Table answering questions from business documents has many challenges that require understanding tabular structures, cross-document referencing, and additional numeric computations beyond simple search queries. This paper introduces a novel pipeline, named →

tabiqa business documents table extraction deep learning question answering

发现论文，激发创造

BioTABQA: 医学表格问答的指令学习

本文在生物医学领域维度构建了一个表格问答数据集 BioTABQA，包含 22 个模板和上下文中的信息。通过该数据集，本文提出了一种基于指导学习的方法，在多个评估方式下，该方法比单一和多任务基线模型表现提高约 23% 和 6%。最重要的是，在跨任务方面，该方法的性能比基线模型提高了约 5%。

Jul, 2022

TableVQA-Bench: 多表领域上的视觉问答基准

本文介绍了一个名为 TableVQA-Bench 的基准，用于表格视觉问答，该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统，获取图像，并通过利用大型语言模型生成 QA 问题。我们在 TableVQA-Bench 上全面比较了不同的多模态大型语言模型的性能，其中 GPT-4V 在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明，对于 TableVQA 而言，视觉输入的处理比文本输入更具挑战性。

Apr, 2024

表格与文本的开放式问题回答

该论文研究了开放式问答系统（QA）在同时检索结构化表格和非结构化文本数据时的困难之处，并提出了两种新技术以提高检索准确率，让模型的精确匹配得分提高至 27% 以上，这为该领域的未来研究提供了重要的参考价值。

Oct, 2020

MultiTabQA：为多表问答生成表格答案

本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标，我们评估了生成的表格。经过在三个数据集（Spider、Atis 和 GeoQuery）上微调后，MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。

May, 2023

表格问答调查：最新进展

该研究调查了目前表格问答的数据集和方法，并将现有的表格问答方法分类为五类，即基于语义解析的、生成式的、提取式的、基于匹配的和检索式的方法。此外，研究还提出了该领域的一些主要挑战和未来方向。

Jul, 2022

TAT-QA：面向金融领域表格和文本混合内容的问答基准

本文提出了一个新的 QA 数据集 TAT-QA，并提出了一个新的 QA 模型 TAGOP，该模型可以同时推理表格和文本的含义，但该模型的 F1 值达到了 58.0％，距离专家水平还有较大的差距（90.8％），本文提供的 TAT-QA 可以作为处理混合形式数据的 QA 模型的基准。

May, 2021

利用表格和文本进行问答的表征

本研究旨在通过利用文本周围信息来改进表格表示，从而提高全文问答效果，并在 Natural Questions 数据集上取得显著的改进。

Jan, 2021

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022

航空行业复杂表格的问答数据集

该研究主要介绍了一个针对航空业公司数据集的领域特定的表格问答数据集 AIT-QA，分析了使用 Transformer 模型进行 Table QA 的现有方法在处理领域特定的表格数据时面临的挑战，并提出了一些实用的表格预处理步骤。

Jun, 2021

科学表格的标签问答模型有多稳健？使用自定义数据集的研究

研究报告通过构建新的 SciTabQA 数据集评估现有的科学混合表格问答模型的稳健性和性能，发现表格问答模型在科学信息上的解释能力较低，需要进一步改进。

Mar, 2024