ColPali:视觉语言模型高效文档检索
我们提出了一种互动式图像检索系统,结合了视觉语言模型和大型语言模型,通过用户反馈迭代改进查询,并利用无噪声的查询扩展提高检索准确性,在评估中获得了 10% 的召回率改善。
Apr, 2024
本文提出了一种名为 Bi-VLDoc 的预训练模型,该模型通过双向视觉语言监督策略和视觉语言混合注意机制来完全探索和利用视觉和语言之间的交互作用,以学习具有更丰富语义的更强的跨模态文档表示,并在模型效果上显著优于现有模型,包括文档理解、文档分类和文档视觉问答等领域。
Jun, 2022
本文研究信息提取的问题,使用大型预训练语言模型和图神经网络相结合的模型来高效地编码视觉和文本信息,并引入新的微调目标,通过使用大量未标记的领域内数据来改善领域内无监督微调。我们在真实世界的发票和简历数据集上进行了实验,并表明所提出的方法在发票上的绝对 F1 比强文本基线高出 6.3% ,在简历中 F1 绝对值增加了 4.7%。在少数样本情况下,我们的方法需要比基线少 30 倍的批注数据才能在约 90%的 F1 达到相同的性能水平。
May, 2020
本文提出了一种用于快速图像 - 文本检索的 Hierarchical Vision-Language Pre-Training(HiVLP)方法,具有快速推理速度和可扩展性,并能够在大规模检索场景下进行优化表现,在 Flickr30k 和 COCO 数据集上展示了 + 4.9AR 和 + 3.8AR 的性能优势。
May, 2022
通过对 FUNSD 和 CORD 数据集上进行的广泛剖析研究及对 LayoutLMv3 的初始化,我们提出了一个模型,用于在视觉丰富的文档中进行关系抽取,其结果超过了当前行业的最佳效果,且没有特定的预训练任务和较少的参数。
Apr, 2024
PaLI 是一种简单、模块化和可扩展的神经网络模型,利用大规模预训练的 encoder-decoder 语言模型和 Vision Transformers 来实现视觉和语言的联合建模,并在多种语言的情况下生成文本并完成多模态任务,此外,通过基于包含超过 100 种语言的 10B 个图像和文本的新图片 - 文本训练集创建大规模多语言混合预训练任务,实现了多项视觉和语言任务的最新水平。
Sep, 2022
该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL),能够检索多模态数据中的世界知识,并结合多模态数据和知识来完成预训练,以提高视觉语言理解和多模态实体链接任务的性能。
Apr, 2023
本论文提出了 RECO 模型,该模型通过外部记忆检索获取精细化知识,应用于现有视觉文本模型中,并在 Stanford Cars、CUB-2011 和 OVEN benchmark 等多项任务中取得了显著性能提升。
Jun, 2023
本文介绍了在 eBay 产品视觉搜索挑战 (FGVC9) 中获得第一名的一个模型。该模型通过将视觉模型和视觉语言模型相结合,运用 20 个模型的结合方式,在对 coarse labels 进行两阶段训练的基础上,进行了精细化的自我监督训练。此外,该模型通过使用文本描述训练图像作为监督信号,对图像编码器进行了微调。最终,该模型达到了 0.7623 MAR@10 的成绩,超过了所有竞争对手。
Jul, 2022
本研究提出了一种基于 Flamingo 模型的 Retrieval-augmented Visual Language Model(Re-ViLM), 支持检索外部数据库的相关知识,减少模型参数数量,适应新数据评估。研究表明,Re-ViLM 显著提高了图像到文本生成任务的性能,在没有领域内数据和少量领域内数据的情况下,参数数量是基线方法的四倍。
Feb, 2023