Sep, 2023

跨模态多任务语音转文字翻译与参数共享

TL;DR最近的研究在端到端语音到文本翻译(ST)中提出了多任务方法,通过辅助编码器将机器翻译(MT)数据映射到最终的跨模态表示中,采用软参数共享。本研究提出了一种具有硬参数共享的 ST/MT 多任务框架,通过预处理阶段将语音和文本输入转换为两个长度相似的离散令牌序列,从而减少了语音 - 文本模态差异。通过在 MuST-C 上的实验,我们证明了我们的多任务框架平均提高了 0.5 BLEU 的关注编码器 - 解码器、连接时序分类(CTC)、转录器和联合 CTC / 关注模型,而无需外部 MT 数据。此外,我们还展示了这个框架的融入外部 MT 数据可以产生 0.8 BLEU 的改进,并且可以提高从预训练的文本模型进行迁移学习,从而产生 1.8 BLEU 的改进。