Oct, 2020
Transformer 在行动:Transformer 基于的大规模语音识别应用中的声学模型比较研究
Transformer in action: a comparative study of transformer-based acoustic models for large scale speech recognition applications
Yongqiang Wang, Yangyang Shi, Frank Zhang, Chunyang Wu, Julian Chan...
TL;DR本文总结了 Transformer 和其可流式传输的变体 Emformer 在大规模语音识别应用中的应用。通过比较 Transformer 和 LSTM 模型在工业规模任务中的差异,介绍了 Emformer 在中等延迟任务和低延迟任务上与 LCBLSTM 和 LSTM 的性能比较。结果表明,Emformer 在低延迟语音助手任务中有 24%至 26%的相对单词错误率降低,并在视频字幕数据集中的四种语言中比 LCBLSTM 具有更优异的性能。