Feb, 2024

通过离散语音单元预训练的紧凑语音翻译模型

TL;DR使用自监督学习作为模型初始化在语音翻译中取得较好结果已经很常见,但也对设备上的部署造成了大量的内存开销。本文通过在离散语音单元上对自监督学习模型进行预训练,从而在有限的语音翻译数据上微调初始化的新模型,并利用离散语音单元预训练来凝结自监督学习模型的知识,从而使得最终模型更加紧凑。我们的方法相比于将离散语音单元用作模型输入,具有短推理流程和对(离散语音单元)分词具有鲁棒性等多个优点。与自动语音识别的预训练相比,它不需要转录,因此适用于资源有限的环境。在 CoVoST-2 X-En 数据集上的评估结果显示,我们的方法比直接微调自监督学习模型的语音翻译模型具有更高的 BLEU 得分(提升 0.5),且模型大小仅为其一半,并且与自动语音识别的预训练方法相媲美。