多模表格理解

ACLJun, 2024

Multimodal Table Understanding

Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin...

TL;DR本研究论文提出了一种新的问题，即多模态表格理解，其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估，构建了一个名为 MMTab 的大规模数据集，该数据集涵盖了广泛的表格图像、指令和任务。在此基础上，研发了 Table-LLaVA，一种通用的表格多模态大型语言模型（MLLM），在 23 个基准测试中，在保留内部和保留外部设置下，其性能明显优于最近的开源 MLLM 基准线。

Abstract

Although great progress has been made by previous table understanding methods including recent approaches based on large language models (LLMs), they rely heavily on the premise that given tables must be converte

table understanding methods large language models multimodal table understanding mmtab dataset table-llava

发现论文，激发创造

表格作为图像？探索 LLM 在多模态表格数据表示中的优势和局限性

研究通过不同的提示策略和数据格式来调查各种 LLMs 在解释表格数据方面的有效性。我们的分析涵盖了六个与表格相关的任务的基准，如问答和事实核查。我们首次评估了 LLMs 在基于图像的表格表示上的性能。具体而言，我们比较了五种基于文本和三种基于图像的表格表示，展示了表示和提示对 LLM 性能的影响。我们的研究揭示了 LLMs 在表格相关任务上有效使用的见解。

Feb, 2024

超越嵌入：多模型中视觉表格的潜力

本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table，它提供了层次化的视觉场景文本描述，并包括了场景描述和多个以对象为中心的描述，涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示，我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时，我们的模型可以与甚至超过基于 CLIP 视觉嵌入的最先进的多模态大型语言模型。

Mar, 2024

用大型语言模型重新思考表格数据理解

通过对大型语言模型的研究，揭示了它们在解释和推理表格数据方面的能力，发现表格结构变化对模型性能的影响，提出了表格结构归一化的方法，并且比较了文本推理和符号推理，同时通过多个推理路径的聚合，取得了在 WIKITABLEQUESTIONS 任务上的最新成果。

Dec, 2023

表格处理的大语言模型：调查报告

通过对大型语言模型（LLMs）在表格任务方面的应用进行全面的概述，本文除了涵盖传统的表格问答（Table QA）和事实验证等领域，还强调了表格操作和高级表格数据分析等新方面，并介绍了 LLMs 中的指导调优、提示和基于代理的方法，同时也提出了私有部署、高效推理和开发广泛基准的相关挑战。

Feb, 2024

多模态理解排行榜：文本与图像

Multi 是一种多模态大型语言模型（MLLMs）的先进基准测试，提供了综合数据集，用于评估 MLLMs 在理解复杂图表、科学问题等方面的表现，并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明，MLLMs 在 Multi 上取得了显著的进展，与其他 MLLMs 相比，GPT-4V 的准确率达到了 63.7%，Multi 不仅是一个强大的评估平台，也为专家级 AI 的发展铺平了道路。

Feb, 2024

TableVQA-Bench: 多表领域上的视觉问答基准

本文介绍了一个名为 TableVQA-Bench 的基准，用于表格视觉问答，该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统，获取图像，并通过利用大型语言模型生成 QA 问题。我们在 TableVQA-Bench 上全面比较了不同的多模态大型语言模型的性能，其中 GPT-4V 在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明，对于 TableVQA 而言，视觉输入的处理比文本输入更具挑战性。

Apr, 2024

MultiModalQA: 文本、表格和图像的复杂问答

本文介绍了一个名为 “MultiModalQA (MMQA)” 的数据集，该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题，并演示了多模态多跳方法在解决这一任务中的必要性。

Apr, 2021

通过输入设计评估和增强大型语言模型在表格上的结构理解能力

本文旨在通过设计一个基准来评估 LLMs 的结构理解能力，包括七个挑战不同的任务，使用 self-augmentation 方法来提高 LLMs 的表格任务表现，提高了 TabFact、HybridQA、SQA、Feverous 和 ToTTo 等表格任务的性能。

May, 2023

多模态大型语言模型的（R）演进：一项调查

连接文本和视觉模态在生成智能中起着关键作用。受大型语言模型成功的启发，目前正在大量研究开发多模态大型语言模型 (MLLMs)。本文全面回顾了最近的面向视觉的 MLLMs，分析了它们的体系结构选择、多模态对齐策略和训练技术。同时，还对这些模型在包括视觉定位、图像生成和编辑、视觉理解以及领域特定应用等一系列任务上进行了详细分析。此外，我们还编译和描述了训练数据集和评估基准，并在性能和计算要求方面对现有模型进行了比较。总体而言，本调查提供了当前最新技术的全面概述，为未来的 MLLMs 奠定了基础。

Feb, 2024

填补鸿沟：利用大型语言模型解读表格数据

大型语言模型在表格问答任务中的首次应用以增强模型对表格结构和内容的理解。

Aug, 2023