TableVQA-Bench: 多表领域上的视觉问答基准

Apr, 2024

TableVQA-Bench: 多表领域上的视觉问答基准

TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains

Yoonsik Kim, Moonbin Yim, Ka Yeon Song

TL;DR本文介绍了一个名为 TableVQA-Bench 的基准，用于表格视觉问答，该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统，获取图像，并通过利用大型语言模型生成 QA 问题。我们在 TableVQA-Bench 上全面比较了不同的多模态大型语言模型的性能，其中 GPT-4V 在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明，对于 TableVQA 而言，视觉输入的处理比文本输入更具挑战性。

Abstract

In this paper, we establish a benchmark for table visual question answering, referred to as the tablevqa-bench, derived from pre-existing table question-answering (QA) and table structure recognition datasets. It

tablevqa-bench table visual question answering images qa pairs multi-modal large language models

发现论文，激发创造

可迁移的表格问答

本文设计了新的挑战测试基准 WikiSQL-TS 和 WikiTQ-TS，模拟了实际主题转移场景，并提出了适用于 TableQA 的 T3QA（主题可转移的表格问题回答）方案，包括注入特定主题词汇、生成主题专用训练数据生成程序和逻辑形式重新排序器。我们认为我们的主题分裂基准将会促进更好的部署的鲁棒的 TableQA 解决方案。

Sep, 2021

利用分类数据集和它们的语义层次对视觉语言模型进行开放式视觉问答基准测试

通过提出创新的评估方法并修正现有的视觉问答基准，我们的研究旨在推进我们对文本生成视觉语言模型能力的理解，提出了一种基于著名视觉分类数据集的新型视觉问答基准，可以对文本生成视觉语言模型进行细粒度评估，并与辨别性视觉语言模型进行比较。我们建议利用标签空间的语义层次结构为细粒度分类任务中的粗略答案提出自动生成的后续问题，以改善评估模型预测的传统自然语言处理和基于语言模型的度量标准。我们进行了人工评估研究，基于这项研究，我们决定采用最终的度量标准。我们将我们的基准应用于一套视觉语言模型，并详细比较了它们在对象、行为和属性分类方面的能力。我们的研究为更精确、有意义的评估奠定基础，促进了视觉语言建模领域的有针对性进展。

Feb, 2024

CVQA：跨文化多语言视觉问答基准

构建了 CVQA，一个新的多元文化多语言视觉问答基准，覆盖了 28 个国家的文化驱动图像和问题，包括 26 种语言和 11 种文字，共提供了 9k 个问题。针对 CVQA 对几种多模态大型语言模型进行了基准测试，显示出该数据集对当前最先进的模型具有挑战性。这一基准测试可以作为评估多模态模型的文化能力和偏见的探测套件，并希望鼓励更多研究努力来增加该领域中的文化意识和语言多样性。

Jun, 2024

BioTABQA: 医学表格问答的指令学习

本文在生物医学领域维度构建了一个表格问答数据集 BioTABQA，包含 22 个模板和上下文中的信息。通过该数据集，本文提出了一种基于指导学习的方法，在多个评估方式下，该方法比单一和多任务基线模型表现提高约 23% 和 6%。最重要的是，在跨任务方面，该方法的性能比基线模型提高了约 5%。

Jul, 2022

MTVQA：多语言基于文本为中心的视觉问答基准测试

本研究提供了一个多语言 TEC-VQA 的基准测试数据集 MTVQA，并通过评估多种先进的多模态大型语言模型在该数据集上的表现，发现仍有提高性能的空间，凸显了该数据集的价值。

May, 2024

MultiTabQA：为多表问答生成表格答案

本文提出了一种新的多表问题回答模型，称作 MultiTabQA，除了回答多表问题外，还能生成表格回答。为了实现有效的训练，我们构建了一个包括 132,645 个 SQL 查询和表格回答的预训练数据集。通过引入不同严格程度的特定于表格的评估指标，我们评估了生成的表格。经过在三个数据集（Spider、Atis 和 GeoQuery）上微调后，MultiTabQA 优于在多表 QA 环境中改编成的最先进的单表 QA 模型。

May, 2023

TabIQA：企业文档图像中针对表格的问答

介绍了一种新的流程 TabIQA，它使用最先进的深度学习技术从图像中提取表格内容和结构信息，能够回答与数字数据、文本信息和结构化表格相关的各种问题，并且在回答与表格相关的问题方面取得了良好的成绩。

Mar, 2023

VLSP2022-EVJVQA 挑战：多语言视觉问答

本文提出了一个基于越南图片的多语言视觉问答基准数据集 EVJVQA，用于评估多语言 VQA 系统或模型，并详细介绍了 9th Workshop on Vietnamese Language and Speech Processing (VLSP 2022) 的组织、方法和结果，其中前两个团队使用 ViT 预训练模型和 mT5 预训练语言模型实现多语言 QA 系统。

Feb, 2023

Text2Analysis: 具有高级数据分析和不明确查询的表格问答基准

通过开发 Text2Analysis 基准和创新的注释方法，我们展示了在表格数据分析领域中大规模语言模型的潜力，以推动进一步的研究机会。

Dec, 2023

基于离散推理实现复杂文档理解

本文提供了一个名为 TAT-DQA 的新的数据集，包含来自财务报告的，既有半结构化表格和非结构化文本，又有 16558 个问答对。此外，作者发明了一种新的文档 VQA 模型 MHST，可以智能地处理来自多种模态的信息，从而有效地回答不同类型的问题，并运用离散推理来训练。结果表明，该模型明显优于基线方法，但仍然远远落后于专家人类。作者希望通过提供新的数据集能够促进对融合视觉和语言的视觉丰富文档的深度理解的研究。

Jul, 2022