Jul, 2024

将语音编码器与下游文本模型相结合

TL;DR本研究提出了一种模块化的方法,用于构建级联语音翻译模型,确保所得到的模型在性能上不低于最佳级联基线,同时保持语音识别和文本翻译的最先进表现。论文的创新在于引入了“导出”层,通过L2损失训练,确保语音识别嵌入与文本翻译标记嵌入之间的良好匹配,从而实现性能提升,尤其在无法增量训练文本模型的情况下。