TranSpeech: 双向干扰下的语音翻译
我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统,采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型,仅使用了10分钟的数据训练该技术,可在VoxPopuli S2ST数据集上实现平均3.2 BLEU分数的增益,是首次建立了可用于多种语言对的无文本S2ST技术。
Dec, 2021
本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于Translatotron 2的直接语音到语音翻译系统的性能,实现在21种语言对上BLEU值提高13.6(相对增长113%),特别是对于低资源语言的提高更为显著(相对增长398%)
Mar, 2022
本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题,探索了自监督预训练和数据增强技术来解决此问题,实验表明自监督预训练可以提高模型性能,结合数据增强技术可以进一步提高模型性能。
Apr, 2022
本文提出了一种基于不对称数据的语音到语音模型 Speech2S,利用双语文本数据训练模型可以有效地模拟跨语言的语音转换,实验结果显示,Speech2S 的表现比现有的最先进模型更好。
Oct, 2022
本文提出了一种基于Translatotron 2的 Textless Translatotron模型,使用预处理的无监督语音数据的语音编码器进行训练,针对缺乏书面形式的语言进行端到端的直接语音翻译,效果优于之前的最佳无文本模型,且在多语言和双语语料库上,翻译质量几乎与Translatotron 2相当。
Oct, 2022
AV-TranSpeech是第一种不依赖中间文本的视听信息补充模型,通过自监督预训练和跨模态蒸馏,可以有效提高低资源视听数据的语音转换性能。
May, 2023
直接的语音对语音翻译(S2ST)模型DASpeech能够以极快的解码速度实现高质量的翻译,使用两步骤生成过程的双通路架构,其中语言解码器首先生成目标文本,然后声学解码器根据语言解码器的隐藏状态生成目标语音。
Oct, 2023
Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.
Jun, 2024
现有的两阶段直接语音到语音翻译(S2ST)模型将任务分解为语音到文本翻译(S2TT)和文本到语音合成(TTS),并在端到端模型中取得了良好的结果。然而,这些模型的训练仍然依赖于平行语音数据,这一数据很难收集。相比之下,S2TT和TTS已经积累了大量的数据和预训练模型,但尚未完全用于S2ST模型的开发。本文针对此问题提出了一个名为ComSpeech的复合S2ST模型,可以无缝集成任何预训练的S2TT和TTS模型为一个直接的S2ST模型。此外,为了消除对平行语音数据的依赖,我们提出了一种新的训练方法——ComSpeech-ZS,它仅使用S2TT和TTS数据。通过对比学习在潜在空间中对齐表示,使从TTS数据中学到的语音合成能力能够以零-shot的方式推广到S2ST。在CVSS数据集上的实验结果表明,当有平行语音数据时,ComSpeech在翻译质量和解码速度上都超过了之前的两阶段模型,如UnitY和Translatotron 2。当没有平行语音数据时,ComSpeech-ZS仅在ASR-BLEU上落后于 ame,但胜过了级联模型。
Jun, 2024
本研究针对当前文本到语音转换(TTS)技术中存在的生成质量不稳定和生成速度慢的问题,提出了一种新的非自回归(NAR)TTS框架SimpleSpeech 2。该模型结合了自回归(AR)和非自回归(NAR)方法的优点,简化了数据准备和模型设计,同时实现了高质量的生成性能和快速的推理速度,显示出显著的性能和速度提升,并可扩展至多语言TTS。
Aug, 2024