FLAVA：一种基础语言和视觉对齐模型

CVPRDec, 2021

FLAVA：一种基础语言和视觉对齐模型

FLAVA: A Foundational Language And Vision Alignment Model

Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba...

TL;DR本篇研究提出了一种名为 FLAVA 的综合视觉与语言基础模型，通过使用单一的综合的通用模型，同时针对视觉和语言任务以及跨模态任务，展现出出色的性能表现。

Abstract

State-of-the-art vision and vision-and-language models rely on large-scale visio-linguistic pretraining for obtaining good performance on a variety of downstream tasks. Generally, such models are often either cross-modal (→

visio-linguistic pretraining contrastive multi-modal vision and language foundation model flava

发现论文，激发创造

FAME-ViL：用于异构时尚任务的多任务视觉语言模型

本文提出了一种针对时尚多种异构任务的多任务高效学习方法 ——FAME-ViL，该方法通过引入跨注意力适配器和任务特定适配器到统一的 V+L 模型中，加上稳定而有效的多任务训练策略，能够显著地提高参数效率和任务性能。

Mar, 2023

FaD-VLP: 面向统一检索和说明的时尚视觉语言预训练

提出了一个基于三元组生成的时尚特定预训练框架和可同时执行时尚检索和字幕任务的灵活解码器模型设计，具有跨模态检索、图像检索、图像字幕和多模态分类等多种功能。

Oct, 2022

ViLaM: 具有增强的视觉定位和泛化能力的视觉语言模型

该研究提出了 ViLaM，一个统一的视觉 - 语言转换模型，通过集成基于大型语言模型的指令调整，能够在包括语言和视觉的一系列任务中最佳利用大型预训练语言模型的知识和推理能力，从而在医学图像分析等复杂视觉任务中取得了非凡的表现，并展示了其令人印象深刻的零样本学习能力，表明 ViLaM 在医学领域具有潜在的未来应用。

Nov, 2023

从多模态输入中获取语言知识

利用 FLAVA 模型进行消融研究，独立变化文本和视觉输入量，发现多模态预训练既不损害模型的语言性能，也没有一致的帮助作用；然而，由于实验规模有限，这些结论还不完全确定，需要更好的架构和多模态训练技术来验证多模态输入对语言模型和人类数据效率差距的假设。

Feb, 2024

12 合 1：多任务视觉和语言表示学习

本篇文章通过开发一个大规模、多任务训练体系，研究了不同任务之间的相互关系，提出了一个单一模型，可以在视觉问题回答、基于标题的图像检索、引用表达和多模态验证等四个广泛的任务范畴下，同时取得以往 3 亿多参数内单一任务模型的总和，且性能提高了 2.05 个百分点，并进一步表明，从单一多任务模型微调任务特定模型会进一步提高性能。

Dec, 2019

u-LLaVA: 通过大型语言模型统一多模态任务

通过将 LLM 作为连接多个专家模型的桥梁，采用 u-LLaVA 方法来解决多模态 LLM 在任务间产生的幻觉和相互干扰问题，该方法有效且简单，并在多个基准测试中获得了最先进的性能。

Nov, 2023

VioLA: 面向语音识别、合成和翻译的统一编解码器语言模型

本研究提出了 VioLA 模型，它是一个单自回归 Transformer 解码器网络，通过多任务学习框架，将涉及语音和文本的各种跨模态任务统一为条件编解码器语言模型任务。该模型通过离线神经编解码器将所有语音话语转换为离散标记，进而将所有任务转换为基于标记的序列转换问题，进而自然地使用一个条件语言模型处理。研究表明，VioLA 模型可良好地支持单模和跨模任务，并且解码器模型优于强基线性能。

May, 2023

一体化探索：多模态对齐下的统一视觉语言跟踪

现有主流的视觉语言（VL）跟踪框架由三部分组成，即视觉特征提取器，语言特征提取器和融合模型。本文提出了一个全新的、一体化的框架，通过采用统一的 Transformer 骨干结构，学习联合特征提取和交互，实现了特征的统一融合，消除了特征集成和融合模块的需求，从而在视觉语言跟踪方面获得了更有效和高效的结果。

Jul, 2023

图像、视频、音频和语言任务的统一模型

通过 UnIVAL 统一模型，可以有效地支持图像、文本、视频和音频等多种模态任务，并通过模型权重插值实现多模态模型融合，展示其在特定领域的分布外泛化能力。

Jul, 2023

通过文本生成统一视觉语言任务

该研究提出了一个统一框架，通过相同的语言建模目标，在单个体系结构中学习不同的任务，实现视频图像理解、语言推理和标签生成等领域的应用。通过在多个基准测试中的表现，这种生成方法（在单个统一的体系结构下）显示出了与最先进的特定任务模型相当的性能，并且还显示了更好的推广能力和单个任务模型相似的多任务学习能力。

Feb, 2021