Nov, 2022

VATLM:基于联合掩码预测的视听文字预训练方法,用于语音表示学习

TL;DR本文采用统一的跨模态表示学习框架 VATLM,通过模态无关信息建模、模态依赖模块预处理视觉、语音、文本输入,以及使用统一分词器掩蔽预测任务来将三个模态集成到一个共享语义空间中,优化下游任务的结果表明,VATLM 在音频 - 视觉相关的下游任务中的表现超过了先前的最先进模型,并且能够将不同的语言类型对齐到同一个语义空间。