Oct, 2020

利用文本数据增强语音转文本任务的通用多任务学习框架

TL;DR本文提出了一种多任务学习框架,利用文本数据来提高自动语音识别和语音翻译的性能,其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中,该方法相对于基线线下降了 10~15% 的词错误率,在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。