TranSpeech: 双向干扰下的语音翻译

May, 2022

TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation

Rongjie Huang, Zhou Zhao, Jinglin Liu, Huadai Liu, Yi Ren...

TL;DR本文提出了使用双向扰动的语音到语音翻译模型TranSpeech，该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性，并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明，与基准S2ST模型相比，BiP平均提高了2.9 BLEU分数，并且我们的并行解码技术使推理延迟大幅降低。

Abstract

Direct speech-to-speech translation (S2ST) systems leverage recent progress in speech representation learning, where a sequence of discrete representations (units) derived in a self-supervised manner, are predicted from the model and passed to a vocoder for speech synthesis, still faci

发现论文，激发创造

真实数据上的无字幕语音翻译

我们提出了一种无需文本数据即可构建的无文本语音到语音翻译系统，采用了自监督单元级别的语音标准化技术来优化多说话者语音的模型，仅使用了10分钟的数据训练该技术，可在VoxPopuli S2ST数据集上实现平均3.2 BLEU分数的增益，是首次建立了可用于多种语言对的无文本S2ST技术。

Dec, 2021

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于Translatotron 2的直接语音到语音翻译系统的性能，实现在21种语言对上BLEU值提高13.6（相对增长113%），特别是对于低资源语言的提高更为显著（相对增长398%）

Mar, 2022

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

结合语音和双语文本的联合预训练，用于直接语音翻译

本文提出了一种基于不对称数据的语音到语音模型 Speech2S，利用双语文本数据训练模型可以有效地模拟跨语言的语音转换，实验结果显示，Speech2S 的表现比现有的最先进模型更好。

Oct, 2022

无文本直接语音翻译与离散语音表示

本文提出了一种基于Translatotron 2的 Textless Translatotron模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与Translatotron 2相当。

Oct, 2022

AV-TranSpeech: 音视觉鲁棒语音-语音翻译

AV-TranSpeech是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

DASpeech：用于快速高质量语音到语音翻译的有向无环Transformer

直接的语音对语音翻译（S2ST）模型DASpeech能够以极快的解码速度实现高质量的翻译，使用两步骤生成过程的双通路架构，其中语言解码器首先生成目标文本，然后声学解码器根据语言解码器的隐藏状态生成目标语音。

Oct, 2023

流式语音：多任务学习与同时语音翻译

Simultaneous speech-to-speech translation (Simul-S2ST) is achieved through StreamSpeech, a unified model that incorporates translation and simultaneous policy in multi-task learning, providing high-quality intermediate results and a comprehensive real-time communication experience.

Jun, 2024

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT和TTS已经积累了大量的数据和预训练模型，但尚未完全用于S2ST模型的开发。本文针对此问题提出了一个名为ComSpeech的复合S2ST模型，可以无缝集成任何预训练的S2TT和TTS模型为一个直接的S2ST模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法——ComSpeech-ZS，它仅使用S2TT和TTS数据。通过对比学习在潜在空间中对齐表示，使从TTS数据中学到的语音合成能力能够以零-shot的方式推广到S2ST。在CVSS数据集上的实验结果表明，当有平行语音数据时，ComSpeech在翻译质量和解码速度上都超过了之前的两阶段模型，如UnitY和Translatotron 2。当没有平行语音数据时，ComSpeech-ZS仅在ASR-BLEU上落后于 ame，但胜过了级联模型。

Jun, 2024

SimpleSpeech 2：朝着简单高效的文本到语音转换，基于流的标量潜在变换器扩散模型

本研究针对当前文本到语音转换（TTS）技术中存在的生成质量不稳定和生成速度慢的问题，提出了一种新的非自回归（NAR）TTS框架SimpleSpeech 2。该模型结合了自回归（AR）和非自回归（NAR）方法的优点，简化了数据准备和模型设计，同时实现了高质量的生成性能和快速的推理速度，显示出显著的性能和速度提升，并可扩展至多语言TTS。

Aug, 2024