理解检索增强的视觉语言模型的任务适应性

ICMLMay, 2024

理解检索增强的视觉语言模型的任务适应性

Understanding Retrieval-Augmented Task Adaptation for Vision-Language Models

Yifei Ming, Yixuan Li

TL;DR采用对比式视觉 - 语言模型，通过检索增强的适应性实现了卓越的性能，在了解检索对视觉 - 语言模型适应性的影响方面展示了新的见解，并强调了对有效适应至关重要的对数集成的关键作用。

Abstract

Pre-trained contrastive vision-language models have demonstrated remarkable performance across a wide range of tasks. However, they often struggle on fine-trained datasets with categories not adequately represented during pre-training, which makes adaptation necessary. Recent works hav

contrastive vision-language models retrieval-augmented adaptation uni-modal retrieval cross-modal retrieval logit ensemble

发现论文，激发创造

可靠、适应性强、可归因的检索式语言模型

通过在推理过程中引入大规模数据存储，检索增强的语言模型（retrieval-augmented LMs）可以更可靠、适应性更强且更具可追溯性，然而目前在超越知识密集型任务（如问答）以外的领域，检索增强的语言模型尚未被广泛采用，这需要重新考虑数据存储和检索器、改进检索器和语言模型组件之间的交互以及在高效训练和推理方面进行大规模投资。

Mar, 2024

检索式知识增强视觉语言预训练

该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL)，能够检索多模态数据中的世界知识，并结合多模态数据和知识来完成预训练，以提高视觉语言理解和多模态实体链接任务的性能。

Apr, 2023

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

语言的更多空间：探究检索对语言模型的影响

利用 “理想检索” 方法研究检索增强语言模型，评估检索增强对语言模型行为的影响，观察到这些模型在权重保存方面具有更少的世界知识，在理解局部上下文和词间依赖方面表现更好，但在理解全局上下文方面表现更差。

Apr, 2024

评估检索增强型大型语言模型在科学文件推理中的有效性

本研究通过关键字检索对多种大型语言模型进行评估，发现这些模型在科学文档推理任务中会使用编造的证据来支持预测，利用科学语料库进行预训练无法减轻证据捏造的风险。

Nov, 2023

ATLANTIC: 结构感知的检索增强语言模型用于跨学科科学

我们提出了一种结构感知的检索增强语言模型，通过在预训练模型中检索并融合具有结构关系的科学文档，来改善检索到的内容的相关性、准确性和连贯性。

Nov, 2023

在预训练的视觉 - 语言模型上基准测试适应方法的鲁棒性

对 11 种广泛使用的适应方法在 4 个视觉语言数据集中的鲁棒性进行了评估，发现适应方法对于文本污染比视觉污染更敏感，完整的微调并不能始终提供最高的鲁棒性，而适配器可以在可比较的干净表现下实现更好的鲁棒性，增加适应数据和参数的数量并不能保证增强鲁棒性，相反，会导致鲁棒性降低。

Jun, 2023

KAFA: 基于知识增强特征自适应的视觉语言模型重构图像广告理解

本文通过使用预训练的 VLM（基础视觉语言模型）进行第一次实证研究图片广告的理解。在此过程中，我们发现了适应这些 VLM 到图像广告理解中的实际挑战，并提出了一种简单的特征适应策略来有效融合图像广告的多模态信息，并进一步强化其对真实世界实体的知识。希望我们的研究能引起更多人对与广告行业广泛相关的图片广告理解的关注。

May, 2023

C3: 采用对比弱监督的持续预训练用于跨语言 Ad-Hoc 检索

本文介绍了一种使用多语言维基百科文章预训练预训练语言模型的方法，以提高检索效果。

Apr, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022