检索式知识增强视觉语言预训练

Apr, 2023

Retrieval-based Knowledge Augmented Vision Language Pre-training

Jiahua Rao, Zifei Shan, Longpo Liu, Yao Zhou, Yuedong Yang

TL;DR该篇论文提出了一种基于知识图谱的视觉语言预训练模型 (REAVL)，能够检索多模态数据中的世界知识，并结合多模态数据和知识来完成预训练，以提高视觉语言理解和多模态实体链接任务的性能。

Abstract

With recent progress in large-scale vision and language representation learning, vision language pretraining (VLP) models have achieved promising improvements on various multi-modal downstream tasks. Albeit powerful, these pre-training models still do not take advantage of world knowle

vision language pretraining retrieval-based knowledge augmented multi-modal data knowledge graphs self-supervised tasks

发现论文，激发创造

REVEAL：基于检索增强的多源多模态知识记忆的视觉语言预训练

本文提出了一种端到端检索增强的视觉语言模型（REVEAL），它可以将世界知识编码到大规模存储器中，并从中检索以回答知识密集型查询。

Dec, 2022

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

REALM: 检索增强语言模型预训练

本文介绍了一种利用潜在知识检索器扩充语言模型预训练，并将其应用于开放域问答任务中，实现了良好的效果和可解释性。

Feb, 2020

RAVEN：多任务检索增强视觉 - 语言学习

该论文介绍了 RAVEN，一个多任务的检索增强视觉语言模型框架，通过有效的任务特定微调，无需额外的检索特定参数，该模型获得了在多个任务中都有效的检索能力，对图像字幕和 VQA 任务的广泛实验结果表明，与非检索基准线相比，在 MSCOCO 上提高了 + 1 CIDEr，在 NoCaps 上提高了 + 4 CIDEr，在特定的 VQA 问题类型上提高了近 3％的准确率，这表明了将 RAG 方法应用于视觉语言模型的有效性，标志着朝着更高效和可访问的多模态学习迈进。

Jun, 2024

视觉增强语言建模

提出了一种名为 VaLM 的预训练框架，对语言建模进行视觉增强，通过图像检索模块检索相应图像，使用视觉知识融合层使多模态语言建模可以参考文本和图像的视觉知识，并在需要的情况下获取相关联的图片，通过对各种视觉知识密集型的常识推理任务的评估，展示了 VaLM 在推理对象的常识，包括颜色、大小和形状方面的性能优于强语言和视觉语言基线。

May, 2022

CAVL：学习视觉与语言的对比和自适应表征

本研究主要探讨了视觉与语言的联合预训练，提出了一种名为 CAVL 的视觉和语言的对比和自适应表示简单有效的方法。在下游任务中，我们将其应用于包括 VQA，VCR，NLVR，RPG，TIR 和 ZS-TIR 在内的六项主要任务中，并与基准模型进行比较，结果表明我们的方法具有明显的优势。

Apr, 2023

弃用预训练：将视觉 - 语言模型应用于未知语言

本文提出一种简单而有效的方法，利用多语言预训练语言模型（MPLM）和跨语言上下文化词嵌入对 VLP 进行了调整和适应，以在未见过的语言上具有出色的表现，而无需大量平行语料库。

Jun, 2023

突破通用：利用视觉语言预训练模型增强图像字幕生成的实际知识

利用视觉 - 语言预训练模型（VLP）和知识引导回放（K-Replay）方法，将大规模网络收集的知识融入图像描述中，以提高其准确度和知识识别能力。

Aug, 2023

理解检索增强的视觉语言模型的任务适应性

采用对比式视觉 - 语言模型，通过检索增强的适应性实现了卓越的性能，在了解检索对视觉 - 语言模型适应性的影响方面展示了新的见解，并强调了对有效适应至关重要的对数集成的关键作用。

May, 2024

视觉和语言推理：探索补充知识的益处

本文研究了将通用知识库中的知识注入视觉 - 语言模型中，并通过辅助训练目标增加了语义和关系知识的表征，实现了对问题回答、视觉推理等任务中的性能提升，这种技术不依赖于特定的模型，具有较小的计算开销。

Jan, 2021