直接语音转文本翻译的最新进展
本文介绍了语音翻译技术从松散耦合的串联模型到紧耦合再到最近备受关注的端到端模型的发展历程,讨论了传统方法所面临的主要挑战和最新方法对克服这些问题的方案。通过对传统和最新方法进行统一分类和命名,以解决语音识别和数据缺失问题等开放性研究问题。
Apr, 2020
本文介绍了深度学习在语音到文本翻译领域的应用,主要研究了不同端到端架构以及辅助性连接主义时间分类(CTC)损失函数的使用,着重探讨了预训练模型对最终性能的影响,实验证明预训练模型可以使 BLEU 指标提高 4%,TER 指标提高 5%,并且在 270 小时 IWSLT TED 演讲 En->De 和 100 小时 LibriSpeech Audiobooks En->Fr 上的实验结果表明,该方法可以超过当前的端到端最先进系统。
Nov, 2019
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
本文介绍了一种基于 Transformer 神经网络的直接语音翻译技术,利用伪标签和外部数据来提升翻译效果,并在 Fisher 英西测试数据上创造了最好的翻译结果
May, 2022
本文提出一种新型的语音翻译范例,通过使用两个分离但同步的解码器,一个用于流式 ASR, 一个用于直接语音翻译,并通过 ASR 生成的中间结果指导直接语音翻译,实现了流畅度更高的翻译质量。
Jun, 2021
本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文,并提出了一种直接语音到文本翻译的模型,在一小部分法英人造语料库上取得了有希望的结果。
Dec, 2016
通过分析不同合成目标语音对直接语音翻译模型的影响,本文提出了一个多任务框架,通过同时优化不同 TTS 系统的多个目标来提高 S2ST 表现,在 Fisher 西班牙语 - 英语数据集上实现了 2.8 BLEU 的一致改善效果。
Apr, 2023
现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT 和 TTS 已经积累了大量的数据和预训练模型,但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型,可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法 ——ComSpeech-ZS,它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示,使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明,当有平行语音数据时,ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型,如 UnitY 和 Translatotron 2。当没有平行语音数据时,ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame,但胜过了级联模型。
Jun, 2024