超越嵌入：多模型中视觉表格的潜力

Mar, 2024

超越嵌入：多模型中视觉表格的潜力

Beyond Embeddings: The Promise of Visual Table in Multi-Modal Models

Yiwu Zhong, Zi-Yuan Hu, Michael R. Lyu, Liwei Wang

TL;DR本研究提出了一种用于多模态大型语言模型的新型视觉表达方法 ——Visual Table，它提供了层次化的视觉场景文本描述，并包括了场景描述和多个以对象为中心的描述，涵盖了类别、属性和实例级别的知识。通过生成的视觉表格作为额外的视觉表示，我们的模型在多个基准测试中始终优于现有最先进的多模态大型语言模型。当视觉表格作为独立的视觉表示时，我们的模型可以与甚至超过基于 CLIP 视觉嵌入的最先进的多模态大型语言模型。

Abstract

visual representation learning has been a cornerstone in computer vision, evolving from supervised learning with human-annotated labels to aligning image-text pairs from the Internet. Despite recent advancements in multi-modal large language models (MLLMs), the visual representations t

visual representation learning multi-modal large language models visual table visual reasoning object-centric descriptions

发现论文，激发创造

多模表格理解

本研究论文提出了一种新的问题，即多模态表格理解，其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估，构建了一个名为 MMTab 的大规模数据集，该数据集涵盖了广泛的表格图像、指令和任务。在此基础上，研发了 Table-LLaVA，一种通用的表格多模态大型语言模型（MLLM），在 23 个基准测试中，在保留内部和保留外部设置下，其性能明显优于最近的开源 MLLM 基准线。

Jun, 2024

标签对齐前的多模式标签集成视频文本检索

本文提出了一种用于视频 - 文本检索的 TABLE（标记前对齐）网络，该网络通过标记将多模态信息显式地集成在一起，并在视觉编码器、标记编码器、文本编码器和带有标记引导的跨模态编码器的联合编码下，使用预训练的多模态专家从多模态中提取信息。实验表明，TABLE 模型在 MSR-VTT、MSVD、LSMDC 和 DiDeMo 等多个视频 - 文本检索基准中表现出了最先进的性能。

Jan, 2023

PixT3：基于像素的表格文本生成

通过图像化表格在表格到文本任务中的表现，本文证明图像化表格比典型的文本线性化更具空间效率，多模态方法在表格到文本任务中具有竞争力，并且在未知数据集中具有更好的泛化性能。此外，作者引入了一种新的中间训练课程以增强对表格结构的感知，从而提高模型的生成和整体可信度。

Nov, 2023

MLLMs 增强的视觉 - 语言表示学习

我们展示了多模态大型语言模型（MLLMs）通过提高数据质量来增强视觉语言表示学习，使用 MLLMs 扩展每个图像的多个标题，通过 “文本切割” 方法来防止 MLLMs 引入的偏见和内在标题风格，并在图像文本检索中，在微调和零样本设置下分别获得 5.6〜35.0％和 16.8〜46.1％的 R@1 提升，并且我们的零样本结果可与目标数据集上的微调相媲美，鼓励更多对 MLLMs 的多方面使用的探索。

Nov, 2023

TableVQA-Bench: 多表领域上的视觉问答基准

本文介绍了一个名为 TableVQA-Bench 的基准，用于表格视觉问答，该基准由现有的表格问答和表格结构识别数据集派生而来。通过使用样式表或提出的表格渲染系统，获取图像，并通过利用大型语言模型生成 QA 问题。我们在 TableVQA-Bench 上全面比较了不同的多模态大型语言模型的性能，其中 GPT-4V 在商业和开源的多模态大型语言模型中表现最高的准确率。研究结果表明，对于 TableVQA 而言，视觉输入的处理比文本输入更具挑战性。

Apr, 2024

表格作为图像？探索 LLM 在多模态表格数据表示中的优势和局限性

研究通过不同的提示策略和数据格式来调查各种 LLMs 在解释表格数据方面的有效性。我们的分析涵盖了六个与表格相关的任务的基准，如问答和事实核查。我们首次评估了 LLMs 在基于图像的表格表示上的性能。具体而言，我们比较了五种基于文本和三种基于图像的表格表示，展示了表示和提示对 LLM 性能的影响。我们的研究揭示了 LLMs 在表格相关任务上有效使用的见解。

Feb, 2024

VISTA：可视化文本嵌入用于通用多模态检索

我们提出了一种新的嵌入模型 VISTA，用于通用的多模态检索，该模型在零样本和监督设置下在各种多模态检索任务中都取得了优越的性能。

Jun, 2024

大型视觉 - 语言模型中的复合推理引导

使用一种新颖的生成方法，我们对大型视觉语言模型（如 GPT-4）进行控制，以描述图像并进行组合推理，在 Winoground 数据集上优于其他嵌入式方法，并在最佳描述的增强下获得最高 10% 的准确率改进。

Jan, 2024

使用标题和点击数据的多任务文本到视觉嵌入

论文提出一种新的方法，使用图像标题和来自图像搜索引擎的点击数据来学习文本 - 视觉嵌入，并通过建模嵌入的积极感知提出新的三元损失函数，以及引入一种新的基于小批次的难例负采样方法来提高学习过程的数据效率，实验结果表明，该方法的表现优于现有方法，并且对于现实世界的文本到视觉检索也十分有效。

May, 2019

增强视觉模型以实现对文本密集内容的理解和交互

增强视觉模型对包含大量文本信息的图像进行理解和学习的能力，通过数据预处理、微调和模型评估等方法，在集成 CLIP 和文本嵌入模型的视觉聊天应用中取得了 96.71% 的精度，旨在提升复杂视觉文本数据的跨模态人工智能理解能力。

May, 2024