Oct, 2022

TransFusion: 用多项式扩散转录语音

TL;DR本文旨在探究扩散模型用于语音识别的潜在性,提出了以预训练的语音特征为条件的扩散模型 TransFusion,并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时,我们提出了有效采样和译码多项式扩散模型的新技术。