Aug, 2021

自监督语音预训练中的文本注入

TL;DR这篇论文提出了一种名为 tts4pretrain 的自我监督预训练方法,该方法通过同时从语音和文本两个模态中学习表示,将比较学习的强大能力与从合成语音推导的语言 / 词汇表示相辅相成,有效学习未经转录的语音和未说出的文本,并通过额外的序列损失项在语音编码器中强制执行词汇学习,最终在自动语音识别任务中取得相对于 wav2vec2.0 基线模型 10%的误差率降低。