Oct, 2020

Transformer 在行动:Transformer 基于的大规模语音识别应用中的声学模型比较研究

TL;DR本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明,Emformer 在低延迟语音助手任务中有 24%至 26%的相对单词错误率降低,并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。