ColPali：视觉语言模型高效文档检索

Jun, 2024

ColPali：视觉语言模型高效文档检索

ColPali: Efficient Document Retrieval with Vision Language Models

Manuel Faysse, Hugues Sibille, Tony Wu, Gautier Viaud, Céline Hudelot...

TL;DR通过引入 Visual Document Retrieval Benchmark ViDoRe，本研究介绍了一种基于图像的检索模型 ColPali，该模型利用近期的视觉语言模型理解文档并生成高质量的语境化嵌入，通过后期交互匹配机制，ColPali 显著提高了现代文档检索的性能并且训练速度更快。

Abstract

documents are visually rich structures that convey information through text, as well as tables, figures, page layouts, or fonts. While modern document retrieval systems exhibit strong performance on query-to-text matching, they struggle to exploit →

documents document retrieval visual cues retrieval augmented generation colpali

发现论文，激发创造

利用大型语言模型和视觉语言模型增强交互式图像检索的查询重写

我们提出了一种互动式图像检索系统，结合了视觉语言模型和大型语言模型，通过用户反馈迭代改进查询，并利用无噪声的查询扩展提高检索准确性，在评估中获得了 10% 的召回率改善。

Apr, 2024

Bi-VLDoc: 面向视觉丰富的文档理解的双向视觉 - 语言建模

本文提出了一种名为 Bi-VLDoc 的预训练模型，该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用，以学习具有更丰富语义的更强的跨模态文档表示，并在模型效果上显著优于现有模型，包括文档理解、文档分类和文档视觉问答等领域。

Jun, 2022

具有布局感知能力的基于预训练语言模型的视觉丰富文档信息抽取方法

本文研究信息提取的问题，使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息，并引入新的微调目标，通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验，并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3％，在简历中 F1 绝对值增加了 4.7％。在少数样本情况下，我们的方法需要比基线少 30 倍的批注数据才能在约 90％的 F1 达到相同的性能水平。

May, 2020

HiVLP: 面向快速图像 - 文本检索的分层视觉语言预训练

本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training（HiVLP）方法，具有快速推理速度和可扩展性，并能够在大规模检索场景下进行优化表现，在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。

May, 2022

基于 LayoutLMv3 的增强关系抽取模型在视觉丰富文档中的应用

通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化，我们提出了一个模型，用于在视觉丰富的文档中进行关系抽取，其结果超过了当前行业的最佳效果，且没有特定的预训练任务和较少的参数。

Apr, 2024

PaLI: 一个共同缩放的多语言语言图像模型

PaLI 是一种简单、模块化和可扩展的神经网络模型，利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模，并在多种语言的情况下生成文本并完成多模态任务，此外，通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务，实现了多项视觉和语言任务的最新水平。

Sep, 2022

检索式知识增强视觉语言预训练

该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL)，能够检索多模态数据中的世界知识，并结合多模态数据和知识来完成预训练，以提高视觉语言理解和多模态实体链接任务的性能。

Apr, 2023

检索增强对比视觉 - 文本模型

本论文提出了 RECO 模型，该模型通过外部记忆检索获取精细化知识，应用于现有视觉文本模型中，并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。

Jun, 2023

V$^2$L：将视觉和视觉语言模型应用于大规模产品检索

本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合，运用 20 个模型的结合方式，在对 coarse labels 进行两阶段训练的基础上，进行了精细化的自我监督训练。此外，该模型通过使用文本描述训练图像作为监督信号，对图像编码器进行了微调。最终，该模型达到了 0.7623 MAR@10 的成绩，超过了所有竞争对手。

Jul, 2022

Re-ViLM: 检索增强的视觉语言模型，用于零和少量样本图像字幕生成

本研究提出了一种基于 Flamingo 模型的 Retrieval-augmented Visual Language Model（Re-ViLM）, 支持检索外部数据库的相关知识，减少模型参数数量，适应新数据评估。研究表明，Re-ViLM 显著提高了图像到文本生成任务的性能，在没有领域内数据和少量领域内数据的情况下，参数数量是基线方法的四倍。

Feb, 2023