UnitY：使用离散单元进行两阶段直接语音翻译

Dec, 2022

UnitY：使用离散单元进行两阶段直接语音翻译

UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units

Hirofumi Inaguma, Sravya Popuri, Ilia Kulikov, Peng-Jen Chen, Changhan Wang...

TL;DR本文提出了一种名为 UnitY 的新型两遍直接 S2ST 架构，通过子词预测、先进的两遍解码器架构设计和搜索策略以及更好的训练规则等技术实现模型性能的提升，其在多个基准数据集上表现出比单遍语音转换模型高 2.5-4.2 ASR-BLEU 分数且同时具有 2.83 倍的解码速度提速。

Abstract

Direct speech-to-speech translation (s2st), in which all components can be optimized jointly, is advantageous over cascaded approaches to achieve fast inference with a simplified pipeline. We present a novel two-

speech-to-speech translation s2st two-pass direct architecture subword prediction acoustic units

发现论文，激发创造

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

基于单元的无平行数据语音翻译

本文提出了一种基于自动发现独立单元的无监督语音到语音翻译系统，使用三步训练过程，避免使用自动语音识别和文本转语音模型，在合成语音上的实验结果表明该方法可行。

May, 2023

基于离散单元的风格转换的语音到语音翻译

直接语音到语音翻译（S2ST）结合了离散的自监督表示，取得了显著的准确性，但无法在翻译过程中保留源语音的说话人音色。我们提出了一个基于自监督模型的离散单元和神经编解码器的 S2ST 框架，用于样式转换。声学语言模型利用自监督的上下文学习，获得了样式转换的能力，无需依赖任何说话人平行数据，从而克服了数据稀缺的问题。通过使用大量的训练数据，我们的模型可以在之前未见过的源语言上进行零 - shot 跨语言样式转换。实验证明，我们的模型生成的翻译语音在高保真度和样式相似性上表现出色。音频样本可在此网址获取。

Sep, 2023

使用声学单元的直接文本转语音翻译系统

本研究提出了一种使用离散声学单元的直接文本到语音翻译系统，该系统能够将不同源语言的文本作为输入，生成目标语言的语音，无需该语言的文本转录。通过使用语音编码器与聚类算法相结合来提取声学单元，利用先前工作中在直接语音到语音翻译系统中成功运用的声学单元，构建了该框架。通过训练编码器 - 解码器架构来预测声学单元，然后使用声码器从单元生成语音。我们在新的 CVSS 语料库上测试了直接文本到语音翻译的方法，使用了两个不同的初始模型（mBART）。所提出的系统在大多数评估的语言对上表现出竞争性能。此外，结果显示，使用预先训练了更多语言的模型初始化我们提出的架构，能够取得显著的改进。

Sep, 2023

使用自监督预训练和数据增强增强的直接语音翻译

本文讨论了直接语音到语音翻译模型面临的数据稀缺性问题，探索了自监督预训练和数据增强技术来解决此问题，实验表明自监督预训练可以提高模型性能，结合数据增强技术可以进一步提高模型性能。

Apr, 2022

TranSpeech: 双向干扰下的语音翻译

本文提出了使用双向扰动的语音到语音翻译模型 TranSpeech，该模型通过样本的风格归一化和信息提升改善了离散单元之间的声学多模性，并且使用了非自回归技术来提高翻译速度和准确性。实验结果表明，与基准 S2ST 模型相比，BiP 平均提高了 2.9 BLEU 分数，并且我们的并行解码技术使推理延迟大幅降低。

May, 2022

不使用并行语音数据，是否能实现高质量的直接语音到语音翻译？

现有的两阶段直接语音到语音翻译（S2ST）模型将任务分解为语音到文本翻译（S2TT）和文本到语音合成（TTS），并在端到端模型中取得了良好的结果。然而，这些模型的训练仍然依赖于平行语音数据，这一数据很难收集。相比之下，S2TT 和 TTS 已经积累了大量的数据和预训练模型，但尚未完全用于 S2ST 模型的开发。本文针对此问题提出了一个名为 ComSpeech 的复合 S2ST 模型，可以无缝集成任何预训练的 S2TT 和 TTS 模型为一个直接的 S2ST 模型。此外，为了消除对平行语音数据的依赖，我们提出了一种新的训练方法 ——ComSpeech-ZS，它仅使用 S2TT 和 TTS 数据。通过对比学习在潜在空间中对齐表示，使从 TTS 数据中学到的语音合成能力能够以零 - shot 的方式推广到 S2ST。在 CVSS 数据集上的实验结果表明，当有平行语音数据时，ComSpeech 在翻译质量和解码速度上都超过了之前的两阶段模型，如 UnitY 和 Translatotron 2。当没有平行语音数据时，ComSpeech-ZS 仅在 ASR-BLEU 上落后于 ame，但胜过了级联模型。

Jun, 2024

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

多对多口语翻译通过统一语音和文本表征学习与单元翻译

我们提出了一种方法，通过单一模型学习多语言语音和文本的统一表示，特别关注语音合成的目的。我们使用语音单元表示多语言语音音频，这是从自我监督语音模型编码的语音特征的量化表示。因此，我们可以将语音视为伪文本，并构建语音和文本的统一表示。然后，我们提出在多语言数据上通过单位到单位翻译 (UTUT) 目标训练编码器 - 解码器结构模型。通过使用源语言标记来确定编码器，使用目标语言标记来确定解码器，该模型被优化为将口语语言翻译为目标语言的翻译模型。因此，该模型可以建立口语语言的理解方式，并将其与不同语言相关联。单个经过预训练的 UTUT 模型可以用于各种多语言语音和文本相关任务，如语音到语音翻译 (STS)、多语言文本到语音合成 (TTS) 和文本到语音翻译 (TTST)。我们通过包含各种语言的综合实验验证了所提出方法的有效性。此外，我们展示了 UTUT 可以执行先前在文献中未探索的多对多语言 STS。样例可在此网址获取：https://URL

Aug, 2023

利用无监督和弱监督数据，提高直接语音翻译的准确性

本文旨在通过多种方法利用无监督和弱监督的语音和文本数据来提高基于 Translatotron 2 的直接语音到语音翻译系统的性能，实现在 21 种语言对上 BLEU 值提高 13.6（相对增长 113%），特别是对于低资源语言的提高更为显著（相对增长 398%）

Mar, 2022