Jun, 2024

具上下文的端到端自动语音识别及中间偏置损失

TL;DR提出了一种在编码器中使用显式偏置损失作为辅助任务的方法,以更好地将文本令牌或音频帧与预期目标对齐,并通过使用 RNN-transducer 驱动的联合解码来进一步降低无偏差的单词错误率(U-WER),从而实现更强大的网络。