联合语音识别和翻译的流式模型
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
Apr, 2020
本研究探索了一种同时实现语音转写和翻译的方法,并比较了传统串联式方法和端到端模型的表现。研究发现,直接模型不适用于这一任务,但采用耦合推理过程的端到端模型能够实现强一致性。此外,研究还引入了直接优化一致性的简单技术,并分析了一致性、转写准确性和翻译准确性之间的权衡。
Jul, 2020
本文提出了一种针对实时应用场景的端到端增强记忆Transformer编码器,成功地应用于流式同声传译任务,可以处理大量连续输入,相较于单向掩码Transformer模型,具有更好的延迟和质量平衡。
Oct, 2020
本文介绍了如何将神经转录器引入流式端到端语音翻译(ST)中,提出了基于注意力池化的Transformer transducer(TT)模型以及在多语言ST中的应用,结果表明TT模型不仅显著减少了推理时间,而且在英德翻译上优于基于ASR和MT的非流式级联ST。
Apr, 2022
本文讨论语音翻译中级联系统带来的挑战以及应对这些挑战的方法,研究表明,直接利用数据进行联合训练无法显著提高级联系统的性能,建议寻找其他有效的方法来提高语音翻译的效率。
Oct, 2022
本文介绍了建立流式多语言语音模型 (SM2) 的工作,基于 Transformer Transducer,使用弱监督数据通过机器翻译服务训练模型,拥有较强的流式能力和真正的零-shot 能力,并取得了非常好的翻译质量。
Nov, 2022
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成,其平均ASR延迟为1秒,ST延迟为1.3秒,在多语言情况下优化了输出质量表现。
Jul, 2023
提出了一种流式Transformer-Transducer(T-T)模型,能够使用单个解码器联合生成多对一和一对多的转录和翻译,并引入了一种基于时间戳信息的新颖方法来有效地在流式环境中生成语音识别和语音翻译的输出。通过在{it, es, de}->en上进行的实验证明了我们方法的有效性,首次实现了使用单个解码器生成一对多联合输出。
Oct, 2023
本研究提出了一种模块化的方法,用于构建级联语音翻译模型,确保所得到的模型在性能上不低于最佳级联基线,同时保持语音识别和文本翻译的最先进表现。论文的创新在于引入了“导出”层,通过L2损失训练,确保语音识别嵌入与文本翻译标记嵌入之间的良好匹配,从而实现性能提升,尤其在无法增量训练文本模型的情况下。
Jul, 2024