Oct, 2020
利用文本数据增强语音转文本任务的通用多任务学习框架
A General Multi-Task Learning Framework to Leverage Text Data for Speech to Text Tasks
Yun Tang, Juan Pino, Changhan Wang, Xutai Ma, Dmitriy Genzel
TL;DR本文提出了一种多任务学习框架,利用文本数据来提高自动语音识别和语音翻译的性能,其中包括基于注意力的序列到序列建模、去噪自动编码器、机器翻译等技术。在英语语音识别任务中,该方法相对于基线线下降了 10~15% 的词错误率,在 MuST-C 任务中有 3.6~9.2 BLEU 的提高。