Apr, 2021

跨模态渐进训练的端到端语音翻译

TL;DR提出了一种基于 Cross Speech-Text(XSTNet)网络的用于语音翻译的端到端模型,采用自监督预训练子网络作为音频编码器、多任务训练目标以及渐进式训练策略,并在 MuST-C En-X 和 LibriSpeech En-Fr 数据集上取得了最新的最佳效果,平均 BLEU 值为 28.8,优于之前的最佳方法 3.2 BLEU。