Dec, 2022

M3ST: 三级混合语音翻译

TL;DR本文提出了一种基于数据扩充的语音翻译方法 M^3ST,通过在词级、句子级和帧级混合训练数据和使用外部机器翻译数据进行模型预训练和微调,再通过并行输入原始语音序列和原始文本序列进行模型微调,使用 Jensen-Shannon 散度对输出进行正则化,成功在 MuST-C 语音翻译基准上取得了优异的表现,平均 BLEU 得分达到 29.9,超越了当前强基线和取得了最新的最好成果。