端到端语音到文本翻译:综述
本文通过重新审视机器翻译中的 ST 和文本翻译任务技术,提出了一套训练 E2E ST 系统的最佳实践,其中包括参数化距离惩罚、模拟本地化技术等。实验表明,在不使用转录文本和预训练的情况下,该系统可以达到并甚至超过之前使用预训练方法的研究水平,对于极低资源环境依然有差距。此外,我们还首次证明了神经声学特征建模的可行性,并在 ST 任务中取得了令人鼓舞的效果。
Jun, 2022
将语音文字(S2T)摘要分为级联和端到端两种模型,并使用预训练的 T2T 摘要提取器进行迁移学习,进而将其应用于在线上传的广播新闻中。结果表明,端到端模型要略逊于级联模型,但都优于提取式基线模型。
Jun, 2023
本文提出了一种新的交互式注意机制,使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行,实验表明,该模型在语音翻译和语音识别方面的性能表现均优于基线模型。
Dec, 2019
该研究论文介绍了端到端自动语音识别模型的分类和改进,讨论了它们对传统隐马尔科夫模型的影响,涵盖了模型、训练、解码和外部语言模型集成等各个方面,同时讨论了性能和部署机会以及未来的发展前景。
Mar, 2023
本文介绍了第一个基于端到端范式的新闻广播阿拉伯语到英语语音翻译系统,并探讨了数据增强和转移学习等多种场景下基于管道和端到端的语音翻译系统的训练和比较。
Dec, 2022
本文提出了一种基于知识蒸馏的方法来提高端到端语音翻译 (ST) 模型的性能,通过从文本翻译模型中转移知识来训练 ST 模型。在英法增广 LibriSpeech 和英汉 TED 语料库上的实验结果表明,使用该方法可以对相似和不相似的语言对进行端到端 ST 实现,并且在老师模型的指导下,端到端 ST 模型可以取得 3.5 个 BLEU 分数的显着提升。
Apr, 2019
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
Apr, 2020
本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文,并提出了一种直接语音到文本翻译的模型,在一小部分法英人造语料库上取得了有希望的结果。
Dec, 2016
同时语音翻译 (SST) 的目标是提供实时的口语翻译,即使在发言者完成句子之前。传统上,SST 主要通过级联系统来解决,将任务分解为子任务,包括语音识别、分割和机器翻译。然而,深度学习的出现激发了对端到端 (E2E) 系统的极大兴趣。然而,当前文献中大多数 E2E SST 方法的主要限制是它们假设源语音被预分割为句子,这对于实际的现实应用是一个重要的障碍。本论文提出了端到端的同时语音翻译,特别是在长篇设定中,即不进行预分割。我们对 E2E SST 的最新进展进行了调研,评估了 SST 的主要障碍以及其与长篇情景的相关性,并提出了应对这些挑战的方法。
Oct, 2023