EMNLPNov, 2022

SpeechNet:工业级弱监督端到端语音识别

TL;DR本文提出了一种在标注稀缺,计算有限的情境下训练和部署自动语音识别系统的方法,使用第三方 ASR 系统和用户反馈标记函数作为弱监督来源,采用不同输入长度的 CUDA 图形池来加速推理,称为 SpeechNet 系统,在智能电视上实现了 Wav2vec 技术的大规模部署,获得了 8% 的词错误率相对改进和 600% 的加速。