DASpeech：用于快速高质量语音到语音翻译的有向无环 Transformer

Oct, 2023

DASpeech：用于快速高质量语音到语音翻译的有向无环 Transformer

DASpeech: Directed Acyclic Transformer for Fast and High-quality Speech-to-Speech Translation

Qingkai Fang, Yan Zhou, Yang Feng

TL;DR直接的语音对语音翻译（S2ST）模型 DASpeech 能够以极快的解码速度实现高质量的翻译，使用两步骤生成过程的双通路架构，其中语言解码器首先生成目标文本，然后声学解码器根据语言解码器的隐藏状态生成目标语音。

Abstract

direct speech-to-speech translation (S2ST) translates speech from one language into another using a single model. However, due to the presence of linguistic and acoustic diversity, the target speech follows a complex multimodal distribution, posing challenges to achieving both high-qua

direct speech-to-speech translation s2st models daspeech two-pass architecture fast decoding speeds

发现论文，激发创造

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

交互解码同步语音识别与语音文本翻译

本文提出了一种新的交互式注意机制，使自动语音识别和语音翻译在单个模型中可以同步地和交互地进行，实验表明，该模型在语音翻译和语音识别方面的性能表现均优于基线模型。

Dec, 2019

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT 和 TTS 已经积累了大量的数据和预训练模型，但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型，可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法 ——ComSpeech-ZS，它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示，使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明，当有平行语音数据时，ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型，如 UnitY 和 Translatotron 2。当没有平行语音数据时，ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame，但胜过了级联模型。

Jun, 2024

一种非自回归生成框架用于端到端同步任意语音翻译

我们提出了一种新颖的非自回归生成框架用于同时语音翻译 (NAST-S2X)，它将语音到文本和语音到语音任务整合到统一的端到端框架中。实验结果表明，NAST-S2X 在语音到文本和语音到语音任务中优于现有模型，在不到 3 秒的延迟内实现了高质量的同时口译，并在离线生成中提供了 28 倍的解码加速。

Jun, 2024

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

利用同步的流式 ASR 辅助的直接同声传译

本文提出一种新型的语音翻译范例，通过使用两个分离但同步的解码器，一个用于流式 ASR, 一个用于直接语音翻译，并通过 ASR 生成的中间结果指导直接语音翻译，实现了流畅度更高的翻译质量。

Jun, 2021

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

AV-TranSpeech: 音视觉鲁棒语音 - 语音翻译

AV-TranSpeech 是第一种不依赖中间文本的视听信息补充模型，通过自监督预训练和跨模态蒸馏，可以有效提高低资源视听数据的语音转换性能。

May, 2023

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022

TranSpeech: 双向干扰下的语音翻译

本文提出了使用双向扰动的语音到语音翻译模型 TranSpeech，该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性，并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明，与基准 S2ST 模型相比，BiP 平均提高了 2.9 BLEU 分数，并且我们的并行解码技术使推理延迟大幅降低。

May, 2022