Mar, 2018

多模态数据增强用于端到端语音识别

TL;DR本文提出了一种新的端到端自动语音识别(ASR)架构,可以利用符号输入和传统的声学输入进行训练,该架构使用两个单独的编码器:一个用于声学输入,另一个用于符号输入,并共享注意力和解码器参数;通过研究不同的方法将大型文本语料库转换成符号形式进行训练,我们的最佳 MMDA 设置不仅可以在字符错误率(CER)上获得小的改善,而且在基线上,无论是否有外部语言模型,均可以获得 7-10%相对词错误率(WER)的改进。