Jun, 2022

基于关注机制端到端语音识别的编码器比较:独立识别模式与重打分模式

TL;DR本文研究了基于注意力机制的端到端语音识别模型在Flipkart语音搜索任务的应用,使用编码器-解码器LAS架构实现非流式和流式模型并比较它们的性能和延迟要求,结果表明变压器模型具有可接受的词错误率和最低延迟要求,在第二次LAS二次得分中相对WER以5ms以内的延迟开销提高16%左右,此外,观察到在第二次得分模式下,所有编码器提供的好处相似,而性能的差异则在独立文本生成模式下更为突出。