骨干部分融合的粗到精视觉 - 语言预训练

Jun, 2022

骨干部分融合的粗到精视觉 - 语言预训练

Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone

Zi-Yi Dou, Aishwarya Kamath, Zhe Gan, Pengchuan Zhang, Jianfeng Wang...

TL;DRFIBER 是一个用于 Vision Language（VL）的新型 VL 模型结构，通过将交叉注意力插入图像和文本骨干网络，将多模态融合深入到模型中，并使用两阶段预训练策略，可以在 VL 任务中提供一致的性能提升。

Abstract

vision-language (VL) pre-training has recently received considerable attention. However, most existing end-to-end pre-training approaches

vision-language fiber pre-training multimodal fusion vl tasks

发现论文，激发创造

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

训练端到端的视觉语言变换器的实证研究

该研究展示了一个名为 METER 的多模态端到端 Transformer 框架，研究了如何设计和预训练一个完全基于 Transformer 的视听模型以及它们的性能，通过在多个维度上对模型设计进行分解，并使用预训练的增强模型，达到了相对于基于区域特征的模型更好的性能，即在 VQAv2 测试数据集上取得了 77.64% 的准确率，超过了以前的最优模型，并且在最佳情况下可以达到 80.54％的准确率。

Nov, 2021

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Oct, 2022

一种中间融合的 ViT 在扩散模型中实现了高效的文本 - 图像对齐

通过使用中间融合机制，我们在文本生成图像任务上获得了更高的 CLIP 得分，更低的 FID，与早期融合相比减少了 20% 的运算量，并且训练速度提高了 50%。

Mar, 2024

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

EgoVLPv2: 骨干网络中融合的自我中心视频语言预训练

本文介绍第二代自我中心视频 - 语言预训练 (EgoVLPv2)，通过将跨模态融合直接纳入视频和语言主干网络，学习强大的视频文本表示，并在下游任务中灵活有效地支持不同的任务，并且我们提出的主干融合策略比堆叠额外的融合特定层更轻量化和计算效率更高。

Jul, 2023

细粒度语义对齐视觉 - 语言预训练

LOUPE 是一个 fine-grained semantically aligned vision-language pre-training framework，通过博弈论交互的新视角学习到精细的语义对齐，并进一步提出了一个基于 Uncertainty-Aware Shapley interaction 的神经网络模块来高效地计算博弈论交互。实验表明， LOUPE 在各种视觉 - 语言任务上均达到了最先进的性能。此外， LOUPE 实现了无需任何对象级人员注释和微调的目标检测和视觉定位的竞争性能，同时也开启了一个新的方向，即从大规模原始图像文本数据中学习精细语义。

Aug, 2022

Kaleido-BERT：时尚领域视觉 - 语言预训练

Kaleido-BERT 是一种新型的视觉 - 语言预训练模型，采用对齐引导的遮盖策略和五项自监督任务进行 VL 预训练，实现了更好的图像 - 文本语义关系表示，并在四个下游任务上实现了领先的性能，特别是时装图像标注任务上，展示了其在实际应用中的广泛潜力。

Mar, 2021

ViLTA：通过文本增强增强视觉语言预训练

本文提出了一种名为 ViLTA 的新方法，由两个组件组成，旨在进一步促进模型在图像和文本对之间学习细粒度表示，采用交叉蒸馏方法生成软标签以提高模型的稳健性，并利用上下文合成硬负样本来增加图像 - 文本匹配的难度，从而在各种视觉语言任务上取得更好的性能。大量的基准数据集实验证明了 ViLTA 的有效性和其在视觉语言预训练中的潜力。

Aug, 2023