Sep, 2022

SpeechLM: 用非配对文本数据增强的语音预训练

TL;DR提出了一种跨模态的语音和语言模型,使用两种不同的离散标记器来处理语音和文本模态,取得了优异的成绩,尤其表现出色的是在 CoVoST-2 语音翻译任务上。