AAAIApr, 2022

极低资源并行数据下的自监督音频文本预训练

TL;DR本文旨在探讨在极低的跨模态数据情况下,通过利用单模态数据和翻译噪声特征进行训练,达到音频 - 文本模态的预训练效果,并证明本方法在很多语言上的表现与全并行语音 - 文本预训练数据相当。