大型视觉 - 语言模型中利用对比学习增强视觉文档理解

Feb, 2024

大型视觉 - 语言模型中利用对比学习增强视觉文档理解

Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models

Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong...

TL;DR利用对比学习框架 DoCo，该研究填补了大型视觉 - 语言模型在处理富文本场景中的细粒度特征缺失问题，提高了对文本丰富的文档的视觉表示，并在多个视觉文档理解基准上取得了优越的性能。

Abstract

Recently, the advent of large visual-language models (LVLMs) has received increasing attention across various domains, particularly in the field of visual document understanding (VDU). Different from conventional

large visual-language models visual document understanding fine-grained feature collapse issue document object contrastive learning text-rich scenarios

发现论文，激发创造

通过视觉对比解码减轻大型视觉语言模型中的物体幻觉

大视觉语言模型（LVLMs）通过视觉识别和语言理解相结合，生成连贯且与上下文相关的内容，但仍然存在物体幻觉问题。本文介绍一种名为 Visual Contrastive Decoding（VCD）的简单且无需训练的方法，通过对比原始和失真的视觉输入产生的输出分布，有效降低统计偏差和单模式先验产生物体幻觉的影响，确保生成的内容与视觉输入密切相关，从而产生上下文准确的输出。实验证明，VCD 不需要额外的训练或使用外部工具，在不同的 LVLM 族群中显著减轻了物体幻觉问题。除减轻物体幻觉问题外，VCD 在通用 LVLM 基准测试中也表现出色，展示了其广泛的适用性。

Nov, 2023

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

对比式视觉 - 语言对齐提高指示学习效率

通过将 Contrastive 和 Generative 方法应用于 ViT 和 LLM 的表示对齐，我们提出了 CG-VLM 模型，有效地实现了视觉 - 语言的对齐，成为一种高效的指令学习器。

Nov, 2023

利用指导对比解码减轻大型视觉语言模型中的幻觉

大规模视觉 - 语言模型（LVLMs）在从视觉输入中生成上下文详细和连贯的回答方面越来越熟练。然而，它们在多模态决策和开放性生成方面的应用受到幻觉的明显影响，生成的文本不准确地表示了视觉内容。为解决这个问题，本文引入了 Instruction Contrastive Decoding（ICD）方法，这是一种旨在减少 LVLM 推断过程中幻觉的新方法。我们的方法受到了干扰指令明显加剧多模态融合模块幻觉的观察启发。ICD 对标准和干扰指令的分布进行对比，从而增加了对齐的不确定性，并有效地从原始分布中减去了幻觉概念。通过对鉴别性基准（POPE 和 MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了 ICD 显著减轻了物体级幻觉和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，还显著提升了 LVLM 的一般感知和识别能力。

Mar, 2024

通过视觉 - 非对称一致性学习在文档图像中增强的语义实体识别

从视觉丰富的表单样式文档（VFDs）中提取属于预定义类别的有意义实体是一项具有挑战性的任务。本文提出了一种全新的 Vancl 方法，通过引入颜色先验知识来增强模型对细粒度视觉和布局特征的捕捉能力，并在基准数据集上实验证明我们的方法明显优于强大的 LayoutLM 系列基线，展示了该方法的有效性，并通过研究不同的颜色方案对该方法的影响，为优化模型性能提供了启示。我们相信我们的工作将激发未来的多模态信息提取研究。

Oct, 2023

Finer: 大规模视觉语言模型中细粒度视觉概念识别的研究与增强

最近在指导的大型视觉语言模型方面取得的进展，使得模型能够轻松生成高层次的基于图像的解释。然而，我们的工作揭示了这些模型在细粒度的视觉分类方面的缺陷，并且我们提出了一个多粒度属性为中心的评估基准，用于评估大型视觉语言模型的细粒度视觉理解能力并提供显著改进的可解释性。

Feb, 2024

对比视觉语言预训练

本文提出了一种基于对比学习的无偏置视觉 - 语言预训练方法，可以在多模态表示学习中获得更好的性能，在验证集 VQA、GQA 和 NLVR2 中取得了良好的结果。

Jul, 2020

CoLLaVO: 蜡笔大规模语言与视觉模型

当前的视觉语言模型 (VLMs) 的图像理解能力与其在零样本视觉语言任务上的表现强相关。我们提出了一个新的视觉提示调整方案，即使用蜡笔提示进行指导调整，以提高对象级图像理解能力。此外，我们还提出了双重 QLoRA 学习策略，以在视觉指导调整过程中保持对象级图像理解能力，从而在零样本的多个视觉语言基准测试中取得了显著的进展。

Feb, 2024

歌词：通过语义感知视觉对象增强细粒度语言视觉对齐和理解

一种新的多模式预训练和指令微调范式 Lyrics，通过细粒度的跨模态协作，将从细粒度视觉精炼器中提取的局部视觉特征注入到查询转换器中，同时，在语言输入的边界框和标签方面使用从视觉精炼器中推导出的信息，通过两阶段训练方案实现模态融合，从而在各种视觉语言任务中取得了强大的性能和有希望的多模态理解和详细描绘能力。

Dec, 2023

LLMs 遇见 VLMs：用细粒度描述符提升开放词汇物体检测

DVDet 是一个描述符增强的开放词汇检测器，引入条件上下文提示和分层文本描述符，实现了精确的区域 - 文本对齐以及一般的开放词汇检测训练。

Feb, 2024