Oct, 2020

弥合语音到文本翻译的模态差距

TL;DR提出了一种称作 STAST 的语音转写自适应模型,通过分离语音翻译编码器为三个部分以及引入跨模态自适应方法来缩小语音和文本的模态差距,进而在英法和英德语音翻译数据集上实现了显著的性能优越。