Sep, 2021

CTAL:跨模态预训练 Transformer 用于音频和语言表示

TL;DR本论文介绍了一种名为 CTAL 的跨模态转换器,旨在利用大量的音频和语言数据对两个代理任务进行遮蔽语言建模和遮蔽跨模态声学建模,以学习音频和语言之间的内模态和跨模态连接。在多个下游音频和语言任务的微调后,我们观察到在情感分类、情感分析和说话者验证等各种任务中都有显着的改进。最后,我们进行了详细的剖析研究,证明我们的创新跨模态融合组件和音频语言预训练方法显著促成了这一有前途的结果。