指引的重要性
我们研究通过人工编写的指令,在真实世界的文档上完成各种视觉文档理解(VDU)任务,例如问答和信息提取。为此,我们提出了 InstructDoc,这是第一个包含 30 个公开可用的 VDU 数据集的大规模集合,每个数据集都有统一格式的多样指令,涵盖了 12 项不同任务并包括多种文档类型 / 格式。此外,为了提高 VDU 任务的泛化性能,我们设计了一种新的基于指令的文档阅读和理解模型 InstructDr,通过可训练的桥接模块连接了文档图像,图像编码器和大型语言模型(LLMs)。实验证明,通过给定的指令,InstructDr 能够有效适应新的 VDU 数据集、任务和领域,且胜过现有的多模态 LLMs 和 ChatGPT 无需特定训练。
Jan, 2024
通过使用来自 LVIS 的图像激励强大的 GPT-4V 生成 220K 个视觉对齐和上下文感知指令,我们推出了一个细粒度的视觉指令数据集 LVIS-Instruct4V,并通过实验验证和案例研究证明,高质量的视觉指令数据可以显著提高现有最先进的大型多模态模型 LLaVA-1.5 在各类基准测试中的性能。
Nov, 2023
本研究提出了 LLaVAR 模型,是通过用包含文字的图像文本对模型进行训练来增强当前视觉指令调优流程的,该模型显着提高了模型在基于文本的 VQA 数据集上的性能,并通过定性分析展示了与人类交互的潜力。
Jun, 2023
通过对视觉指令数据集的实证研究,发现其存在显著冗余性,因此提出了一种新的数据选择方法 TIVE,它基于计算梯度估计了视觉指令的任务级别和实例级别价值,并根据估计值确定了视觉指令中的任务比例,选择代表性实例组成较小的训练集,实验证明该方法只需使用约 7.5% 的数据即可在七个基准测试中达到与完整数据微调模型相当甚至超过的性能改进。
Mar, 2024
研究大规模多模态数据上预训练的 Vision-and-Language (V&L) 模型在视觉问答 (VQA) 任务中存在代表训练数据的样本分布偏移所造成的 OOD 性能问题,而模型学习的是解决基准测试而不是高层次的技能。本文通过考虑在不同设置下 (如分类和开放性文本生成) 两种预训练的 V&L 模型性能的全面评估,证明生成模型在大多数情况下对数据分布变化不太敏感,并在测试基准中表现更好。另外,我们发现多模态预训练可以提高大多数设置下的 OOD 性能。最后,本文重新审视了自动 VQA 评估度量的假设,并从经验上证明它们的严格性会反复惩罚模型的正确响应。
May, 2022
我们介绍了一个名为 DocVQA 的基于文档图像的视觉问答数据集,并提出了该数据集与其他 VQA 和阅读理解数据集的详细分析。虽然现有模型在某些类型的问题上表现得还不错,但与人类表现相比存在较大的表现差距,需要特别在理解文档结构的问题上提高模型性能。
Jul, 2020
近期视觉语言模型的进展在视觉指导调整后,在视觉语言任务中展现了显著的泛化能力。这篇论文通过利用视觉指导数据中被忽视的上下文信息,训练模型进行自我监督学习以提问高质量问题,引入了称为 SQ-LLaVA 的新框架。SQ-LLaVA 在分析视觉线索和先前的语言知识时表现出高水准的泛化视觉理解能力,与传统的视觉指导调整方法相比,将 SQ-LLaVA 在更高质量的指导数据上进行微调可以持续提高性能,突显了自问技术在不同语境下实现更深入和细腻的视觉内容理解能力。
Mar, 2024
本论文介绍了一种名为 DIAL 的方法,利用半监督的语言标签,结合 CLIP 的语义理解,将知识传播到大型未标记的数据集中,并在增强的数据集上训练语言条件下的策略,从而使模仿学习策略获得新的能力并推广到原始数据集中未见过的 60 个新指令。
Nov, 2022