Feb, 2022

使用令牌级串行化输出训练的流式多说话人ASR

TL;DR本文提出了一种基于token级别序列化输出训练(t-SOT)的新型流式多说话人自动语音识别框架,该框架在LibriSpeechMix和LibriCSS数据集中显示出比以前的结果更高的单词错误率的优势。