May, 2020

Conformer: 卷积增强变压器(Convolution-augmented Transformer)用于语音识别

TL;DR本文提出了一种名为 Conformer 的语音识别(Automatic Speech Recognition)模型,结合了 Transformer 和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在 LibriSpeech benchmark 测试中取得了 2.1%/4.3%(未使用语言模型)和 1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于 Transformer 和 CNN 的模型。