May, 2020

Conformer: 卷积增强变压器(Convolution-augmented Transformer)用于语音识别

TL;DR本文提出了一种名为Conformer的语音识别(Automatic Speech Recognition)模型,结合了Transformer和卷积神经网络 (Convolution neural network) 的优点,在参数更少的情况下实现对于语音序列的局部和全局依赖的建模,并在LibriSpeech benchmark测试中取得了2.1%/4.3%(未使用语言模型)和1.9%/3.9%(使用外部语言模型)的字错率(Word Error Rate),表现超越了之前的基于Transformer和CNN的模型。