使用瓶颈特征进行直接语音到语音翻译,无需文本注释
该研究提出了一种基于注意力机制的端到端学习的序列到序列神经网络,能够直接将一种语言的语音翻译成另一种语言的语音,无需中间文本表示,该方法通过学习将语音谱图映射到目标语言的谱图,同时也演示了译后语音合成的能力。研究在两个西班牙语到英语的语音翻译数据集上进行了实验,证明了该方法在这个极具挑战的任务上的可行性。
Apr, 2019
本研究提出一种直接语音到语音的翻译模型,它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音,并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译,以预测目标语音的离散表示,并在同一推断通过实现同步生成双重模态输出(语音和文本)。在 Fisher 西班牙语 - 英语数据集上,我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译,当没有文本转录时,我们的模型表现与训练有文本监督的谱图预测模型相当。
Jul, 2021
本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型,使用预处理的无监督语音数据的语音编码器进行训练,针对缺乏书面形式的语言进行端到端的直接语音翻译,效果优于之前的最佳无文本模型,且在多语言和双语语料库上,翻译质量几乎与 Translatotron 2 相当。
Oct, 2022
本文利用无监督语音识别、机器翻译与语音合成技术,探讨实现无标注数据建立语音翻译系统的方法,通过管道方法或生成伪标签,对端到端语音翻译模型进行训练。同时,提出一种无监督域自适应方法,能够提供一定的性能提升。实验结果表明,本文提出的无监督语音翻译方法,在 Libri-Trans 基准测试的 BLEU 分数上超过以前报告的无监督效果的 3.2 个点,在 CoVoST2 数据集上,本文的最佳系统相对于最佳监督学习的端到端模型(无预训练),在五个语种(X-En)上平均提高 5.0 个 BLEU 分数。在 MuST-C 和 CVSS 基准测试上,本文也取得了有竞争力的结果。
Oct, 2022
本文提出了一种基于单语音频和文本语料库的语音翻译系统框架,使用交叉模态双语词典将每个源语音片段对应到目标文本翻译,通过使用语言模型和序列去噪自编码器,对每个音频片段进行逐字翻译来提高翻译质量,实验结果表明,我们的无监督系统尽管没有监督,但达到了与监督方法相比可比的 BLEU 分数。
Nov, 2018
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能,实现在 21 种语言对上 BLEU 值提高 13.6(相对增长 113%),特别是对于低资源语言的提高更为显著(相对增长 398%)
Mar, 2022
本文提出了一种无需转录或语言监督的训练语音翻译的方法,使用自监督无监督组合的离散量化自动编码器进行训练,然后使用序列到序列模型将源语言语音直接映射到目标语言的离散表示上,最终实现无需先训练或辅助步骤即可直接生成目标语音;该方法是第一次在未经转录的未知语言之间进行纯语音翻译的研究。
Oct, 2019
本文是第一篇尝试构建不使用源语言转录的端到端语音到文本翻译系统的论文,并提出了一种直接语音到文本翻译的模型,在一小部分法英人造语料库上取得了有希望的结果。
Dec, 2016
现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT 和 TTS 已经积累了大量的数据和预训练模型,但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型,可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法 ——ComSpeech-ZS,它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示,使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明,当有平行语音数据时,ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型,如 UnitY 和 Translatotron 2。当没有平行语音数据时,ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame,但胜过了级联模型。
Jun, 2024