将语音编码器与下游文本模型相结合
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
Apr, 2020
本文提出了一种端到端的可训练语音翻译模型,通过优化所有ASR和MT模型的参数而避免级联模型中的误差传播,并且通过使用人工神经网络实现backpropagation传递误差以实现同时提供转录和翻译,对于四个不同数据场景的实验表明,该模型在BLEU和TER方面均优于传统级联模型和直接模型。
Nov, 2020
本文介绍了如何使用端到端模型进行语音翻译,并在流式翻译设置中实现同时生成音频转录和翻译输出,并比较了与标准级联方法的表现,结果表明这种方法与级联模型的表现相似,但参数数量更少。
Jan, 2021
本文提出了一种堆叠声音和文本编码方法(SATE),以改进现有的自动语音识别和机器翻译编码器不足,使其更适合于末端到末端的语音翻译任务。实验结果表明,我们的方法在LibriSpeech En-Fr 和 MuST-C En-De ST任务上,都获得了最新的BLEU分数。
May, 2021
本文提出一种新型的语音翻译范例, 通过使用两个分离但同步的解码器, 一个用于流式ASR, 一个用于直接语音翻译, 并通过ASR生成的中间结果指导直接语音翻译, 实现了流畅度更高的翻译质量。
Jun, 2021
本研究利用外部文本数据提高自动语音识别的性能,探讨了一种方法,在共享解码器和编码器部分的集合中,联合训练自动语音识别和掩码语言模型。经实验验证,该方法在测试中取得了非常好的效果,耗时不增加。
Feb, 2022
描述了LegoNN过程,它通过重新使用decoder模块来构建encoder-decoder结构,从而实现在各种机器翻译和语音识别任务中的重复使用,同时引入了一种模态不可知编码器来提高其可移植性。实验证明LegoNN模型的有效性。
Jun, 2022
该论文介绍了一种使用单个解码器共同生成自动语音识别和语音翻译输出的流式Transformer-Transducer,并提出了一种联合令牌级串行输出训练方法以实现有效的ASR和ST内容生成,其平均ASR延迟为1秒,ST延迟为1.3秒,在多语言情况下优化了输出质量表现。
Jul, 2023
将大型语言模型(LLMs)集成到自动语音识别(ASR)和机器翻译(MT)系统中,通过利用N-best列表细化ASR输出和精炼LLM来提高翻译质量,实现了ASR和MT系统的性能改进。
Jun, 2024
本研究解决了语音识别和语音合成模型通常分开训练的问题,提出了一种通过多任务学习和共享参数的参数高效方法。研究表明,该多任务模型的性能与单独训练的模型相当,同时显著减少了计算和内存成本(两个任务所需的参数总数减少约50%)。
Oct, 2024