May, 2022

Wav2Seq:使用伪语言预训练语音到文本编解码模型

TL;DRWav2Seq是第一个用于预训练语音数据的自监督方法,采用了伪语言作为紧凑的离散表示,并制定了自监督伪语音识别任务-将音频输入转录为伪子词序列。