Feb, 2021

使用 Conformers 的端到端音视频语音识别

TL;DR本文提出一种基于混合 CTC / 注意力模型的 ResNet-18 和卷积扩充变压器 (Conformer),可以进行端到端的训练。在语音识别方面取得了具有突破性的进展,实现了最先进效果。