Sep, 2022

TVLT: 无文本的视觉语言变换器

TL;DR该研究提出了一种无需文本模块的视频与语言结合模型 ——Textless Vision-Language Transformer (TVLT),采用均质的 transformer block 提取由视觉和语音输入组成的多模态信息,用 mask-autoencoding 和对比建模实现视频与音频的对齐,并在视觉问答、图片检索、视频检索以及多模态情感分析等多项任务中取得与有文本模块模型相当的表现,推测从低层视觉和音频信号中学习紧凑高效的视语表示的可能性。