UNIMO-2: 端到端的统一视觉语言基础学习

ACLMar, 2022

UNIMO-2: 端到端的统一视觉语言基础学习

UNIMO-2: End-to-End Unified Vision-Language Grounded Learning

Wei Li, Can Gao, Guocheng Niu, Xinyan Xiao, Hao Liu...

TL;DR本文提出了一种联合学习视觉、文本和不对齐图像和文本语料库之间的符号对齐的端到端 UNIMO-2 统一模态预训练框架，采用 “基础学习” 方案，成功地提高了一些跨模态任务的性能与视觉和文本语义对齐。

Abstract

vision-language pre-training (VLP) has achieved impressive performance on various cross-modal downstream tasks. However, most existing methods can only learn from aligned image-caption data and rely heavily on expensive regional features, which greatly limits their scalability and perf

vision-language pre-training unified-modal pre-training framework grounded learning cross-modal tasks transformer model

发现论文，激发创造

UNIMO：通过跨模态对比学习实现统一模态理解和生成

本文介绍了一种名为 UNIMO 的统一单模态预训练架构，它可以有效地适应单模态和多模态理解和生成任务，利用大规模自由文本语料库和图像集合来提高视觉和文本理解的能力，并使用跨模态对比学习来将文本和视觉信息对齐到图像 - 文本对的统一语义空间。实验结果表明，UNIMO 显著改善了几个单模态和多模态下游任务的性能。

Dec, 2020

UNIMO-3：多粒度视觉语言交互表示学习

本研究提出了 UNIMO-3 模型，旨在解决现有视觉 - 语言预训练模型中的跨模态交互问题，并能同时学习多模态的在层交互和跨层交互，实验结果显示该模型达到了最新工作的最好结果。

May, 2023

图像字幕和 VQA 统一视觉语言预训练

本文提出了一个统一的视觉语言预训练模型，采用共享的多层 Transformer 网络进行编码和解码，通过两个任务的无监督学习目标对大量的图像文本对进行预训练，使得该模型在图像字幕和视觉问答等多个任务上均取得了最先进的结果。

Sep, 2019

基于检索式多粒度对齐的无监督视觉语言预训练

本文提出了一种无监督的图像与自然语言跨模态预训练方法，通过弱对齐的图像 - 文本语料库以及一组多层次的语义对齐预训练任务来构建理想的跨模态表示。该方法通过 VQA、NLVR2、Visual Entailment、RefCOCO + 等下游任务的评估，取得了在无监督设置下的最佳性能。

Mar, 2022

UC2: 通用跨语言跨模态视觉语言预训练

UC2 是第一个基于机器翻译增强的框架，用于跨语言跨模态表示学习。我们扩充了现有的只有英语的数据集，通过机器翻译引入了其他语言的图像标题，然后将标准的 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言环境，通过共享视觉上下文（即使用图像作为枢纽）来捕获不同语言之间的对齐。最终我们提出了两个新的预训练任务，Masked Region-to-Token Modeling（MRTM）和 Visual Translation Language Modeling（VTLM），以加快图像和所有感兴趣语言的联合嵌入空间的学习。在多语言图像文本检索和多语言视觉问答基准上的评估表明，我们的提议框架在各种非英语基准上实现了新的最先进状态，并在英语任务上保持与单语预训练模型相当的性能。

Apr, 2021

UniVL: 用于多模态理解和生成的统一视频与语言预训练模型

本论文提出了 UniVL：一种统一的视频和语言预训练模型，旨在为多模态理解和生成任务提供强大的视频和文本表示，并通过五个目标以及分阶段和增强视频表示的预训练策略来训练各组件，最终在五个下游任务上实现了最新的成果。

Feb, 2020

E2E-VLP: 结合视觉学习的端到端视觉 - 语言预训练

本文提出了一种用于视觉和语言理解与生成的端到端的视觉 - 语言预训练模型 E2E-VLP，其中我们建立了一个统一的 Transformer 框架来共同学习视觉表示和图像文本语义对齐，同时通过将目标检测和图像字幕生成任务整合到预训练中，采用统一的编码 - 解码结构增强了视觉学习。在广泛的视觉 - 语言相关下游任务中进行的一系列实验表明了该新 VLP 模型的有效性。

Jun, 2021

Unicoder-VL: 一个视觉语言通用编码器，通过交叉模态预训练实现

通过联合学习视觉和语言的表示，Unicoder-VL 提供了一个通用编码器，采用多任务交叉训练，包括掩码语言建模，掩码对象分类和视觉语言匹配等。在大规模图像字幕预训练之后，Unicoder-VL 可用于基于字幕的图像文本检索和视觉常识推理，取得了领先或可比的结果，展示了交叉模态预训练的强大能力。

Aug, 2019

SemVLP: 多层次语义对齐的视觉语言预训练

本文提出 SemVLP 预训练方法，通过单流预训练和双流预训练相结合，使用共享 Transformer 网络和可插入的跨模态注意模块，在不同的语义层次上对图像和文本进行联合对齐，以对齐跨模态表示，实验表明该方法可对齐不同语义粒度。

Mar, 2021

语言引导下统一的医学图像预训练在共同语义空间中

借助统一的语义空间，UniMedI 提出了一种统一医学图像预训练框架，能够有效地为不同模态的医学图像创建统一的表示，并通过改进对 2D 和 3D 图像的分析和解释来提高一致性和性能。

Nov, 2023