AAAIApr, 2022
极低资源并行数据下的自监督音频文本预训练
Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data
Yu Kang, Tianqiao Liu, Hang Li, Yang Hao, Wenbiao Ding
TL;DR本文旨在探讨在极低的跨模态数据情况下,通过利用单模态数据和翻译噪声特征进行训练,达到音频 - 文本模态的预训练效果,并证明本方法在很多语言上的表现与全并行语音 - 文本预训练数据相当。