Apr, 2023

VALOR: 视听语言全感知预训练模型和数据集

TL;DR本文提出了一种用于多模态理解和生成的 Vision-Audio-Language Omni-peRception 预训练模型 (VALOR),该模型与先前广泛研究的视觉语言预训练模型不同,以端对端的方式共同建模视觉、音频和语言之间的关系,包含三种单模态表示的编码器和多模态有条件文本生成的解码器,通过 Multimodal Grouping Alignment (MGA) 和 Multimodal Grouping Captioning (MGC) 两个预训练任务,可以学习在多种输入模态下(例如视觉 - 语言、音频 - 语言、音频视觉 - 语言)学习强大的多模态相关性,并在各种下游任务(如检索、字幕生成和问答)取得了新的最先进表现。