Apr, 2023

VALOR: 视听语言全感知预训练模型和数据集

TL;DR本文提出了一种用于多模态理解和生成的Vision-Audio-Language Omni-peRception预训练模型(VALOR),该模型与先前广泛研究的视觉语言预训练模型不同,以端对端的方式共同建模视觉、音频和语言之间的关系,包含三种单模态表示的编码器和多模态有条件文本生成的解码器,通过Multimodal Grouping Alignment (MGA)和Multimodal Grouping Captioning (MGC)两个预训练任务,可以学习在多种输入模态下(例如视觉-语言、音频-语言、音频视觉-语言)学习强大的多模态相关性,并在各种下游任务(如检索、字幕生成和问答)取得了新的最先进表现。