EMNLPOct, 2022

SpeechUT:基于编码器 - 解码器的语音 - 文本预训练中隐藏单元的桥接

TL;DR本文提出了 SpeechUT 单一模态语音单元与文本预训练模型,使用隐藏单元对齐语音和文本,并分别使用未配对的语音和文本数据进行联合预训练。该方法在自动语音识别和语音翻译任务中取得了最先进的性能。