知识感知推理在多模态半结构化表格中的应用
本研究提出了一种知识库框架,通过构建一个大规模的多模态知识库来回答各种视觉查询,同时保持灵活性和可扩展性。研究表明所提系统能够取得有竞争力的结果,并能够应对更丰富的视觉查询。
Jul, 2015
本文介绍了一个名为“MultiModalQA(MMQA)”的数据集,该数据集需要通过对文本、表格和图像的联合推理来回答问题。作者还创建了一个新框架来生成复杂的多模态问题,并演示了多模态多跳方法在解决这一任务中的必要性。
Apr, 2021
通过对大型语言模型的研究,揭示了它们在解释和推理表格数据方面的能力,发现表格结构变化对模型性能的影响,提出了表格结构归一化的方法,并且比较了文本推理和符号推理,同时通过多个推理路径的聚合,取得了在WIKITABLEQUESTIONS任务上的最新成果。
Dec, 2023
Multi是一种多模态大型语言模型(MLLMs)的先进基准测试,提供了综合数据集,用于评估MLLMs在理解复杂图表、科学问题等方面的表现,并挑战包括公式推导、图像细节分析和跨模态推理在内的多样任务。评估结果表明,MLLMs在Multi上取得了显著的进展,与其他MLLMs相比,GPT-4V的准确率达到了63.7%,Multi不仅是一个强大的评估平台,也为专家级AI的发展铺平了道路。
Feb, 2024
QA-ViT是一种用于多模态推理的问题感知视觉Transformer方法,通过将问题感知能力直接嵌入到视觉编码器中,实现动态视觉特征,并且可以有效地应用于各种多模态架构,提高对视觉和场景文本的理解能力。
Feb, 2024
研究通过不同的提示策略和数据格式来调查各种LLMs在解释表格数据方面的有效性。我们的分析涵盖了六个与表格相关的任务的基准,如问答和事实核查。我们首次评估了LLMs在基于图像的表格表示上的性能。具体而言,我们比较了五种基于文本和三种基于图像的表格表示,展示了表示和提示对LLM性能的影响。我们的研究揭示了LLMs在表格相关任务上有效使用的见解。
Feb, 2024
在当前大型多模态模型的研究中,我们评估和重新思考了广泛使用的视觉语言投射方法(如Q-former或MLP),发现它们侧重于图像-文本描述的对齐,但忽略了视觉知识维度的对齐,即将视觉元素与相关知识连接起来。本文主要探索通过视觉语言知识对齐来改进大型多模态模型,特别关注知识型视觉问题回答。为此,我们提出了一个认知视觉语言映射器(CVLM),包含一个预训练的视觉知识对齐器(VKA)和一个用于多模态指令调整阶段的细粒度知识适配器(FKA)。我们通过在知识型视觉问题回答基准测试上进行广泛实验证明,CVLM显著提高了LMM在知识型视觉问题回答上的性能(平均提升5%),消融研究也验证了VKA和FKA的有效性。
Feb, 2024
该论文介绍了一种新颖的多模态图表问答模型,专门设计用于处理复杂的多模态任务,通过融合视觉和语言处理,克服了传统方法的局限性,采用双阶段训练方法,在处理色彩、结构和无文字图表问题方面表现出优异性能。
Apr, 2024
该研究介绍了一种新型的大型视觉语言模型TabPedia,并采用概念协同机制,将多样的视觉表格理解任务和多源视觉嵌入抽象为概念,实现了无缝集成表格检测、表格结构识别、表格查询和表格问答等视觉表格理解任务,证实了大型语言模型在视觉表格理解中的有效性。
Jun, 2024
本研究论文提出了一种新的问题,即多模态表格理解,其中模型需要根据给定的表格图像对各种与表格相关的请求生成正确的响应。为了促进模型的训练和评估,构建了一个名为MMTab的大规模数据集,该数据集涵盖了广泛的表格图像、指令和任务。在此基础上,研发了Table-LLaVA,一种通用的表格多模态大型语言模型(MLLM),在23个基准测试中,在保留内部和保留外部设置下,其性能明显优于最近的开源MLLM基准线。
Jun, 2024