DiffS2UT：一种保持语义的无文本直接语音翻译扩散模型

EMNLPOct, 2023

DiffS2UT：一种保持语义的无文本直接语音翻译扩散模型

DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation

Yongxin Zhu, Zhujin Gao, Xinyuan Zhou, Zhongyi Ye, Linli Xu

TL;DR通过在连续语音表示空间中应用向前扩散，同时在离散语音单位空间中应用向后扩散，我们提出了一种新的扩散模型，以此在扩散过程中保留了连续语音表示空间的语义结构，并整合了连续和离散扩散模型。在无文本直接语音翻译任务上进行了大量实验，该方法与计算密集型的自回归基线方法（平均 500 步骤）相比，具有显著较少的解码步骤（50 步骤），并获得了可比较的结果。

Abstract

While diffusion generative models have achieved great success on image generation tasks, how to efficiently and effectively incorporate them into speech generation especially →

diffusion generative models speech generation translation tasks continuous speech representation space discrete speech unit space

发现论文，激发创造

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

Diff-TTS: 一种文本到语音去噪扩散模型

本文介绍了一种新型非自回归 TTS 模型 Diff-TTS，以噪声信号与扩散时间步长探索去噪扩散框架，同时引入基于可能性的 TTS 优化方法，利用加速采样方法提高波形合成速度，实验证明 Diff-TTS 单独搭载一枚 NVIDIA 2080Ti 显卡比实时生成快 28 倍，并且质量良好。

Apr, 2021

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

使用离散单元进行直接语音到语音翻译

本研究提出一种直接语音到语音的翻译模型，它可以在不依赖中间文本生成的情况下将一种语言的语音翻译成另一种语言的语音，并且结合了自我监督离散语音编码和序列到序列的语音到单位翻译，以预测目标语音的离散表示，并在同一推断通过实现同步生成双重模态输出（语音和文本）。在 Fisher 西班牙语 - 英语数据集上，我们的模型较基线直接 S2ST 模型改进了 6.7 BLEU。由于能够支持未书写语言的翻译，当没有文本转录时，我们的模型表现与训练有文本监督的谱图预测模型相当。

Jul, 2021

高效多语言语音转语音翻译的扩散合成器

DiffuseST 是一种低延迟的直接语音到语音翻译系统，能够在将多种源语言翻译为英语时保持输入讲话人的声音；我们通过比较基于 Tacotron 的合成器和基于扩散的合成器，发现基于扩散的合成器在提高音频质量度量 MOS 和 PESQ 各自达到 23％以及讲话人相似度提高 5％的同时，保持相当的 BLEU 得分；尽管参数数量超过两倍，扩散合成器具有更低的延迟，使整个模型的运行速度超过实时的 5 倍以上。

Jun, 2024

无文本直接语音翻译与离散语音表示

本文提出了一种基于 Translatotron 2 的 Textless Translatotron 模型，使用预处理的无监督语音数据的语音编码器进行训练，针对缺乏书面形式的语言进行端到端的直接语音翻译，效果优于之前的最佳无文本模型，且在多语言和双语语料库上，翻译质量几乎与 Translatotron 2 相当。

Oct, 2022

TESS: 文本到文本自条件简单扩散

本文提出了全非自回归文本扩散模型 Text-to-text Self-conditioned Simplex Diffusion (TESS)，将扩散过程应用于逻辑回归空间，具有新形式的自我条件和完全非自回归的特点。在包括摘要、文本简化、释义生成和问题生成在内的自然语言理解和生成任务中，我们证明了 TESS 胜过最先进的非自回归模型，并具有与预训练的自回归序列到序列模型竞争的能力。

May, 2023

文本生成的自条件嵌入扩散

本研究提出了自条件嵌入扩散 (Self-conditioned Embedding Diffusion)，这是一种在令牌嵌入上运行的连续扩散机制，可以学习灵活和可扩展的扩散模型，用于条件和非条件文本生成。通过定性和定量评估，我们表明，我们的文本扩散模型生成的样本与标准自回归语言模型生成的样本相当，而在推断时间上在加速器硬件上更为高效。该研究为在文本方面扩大扩散模型的规模，类似于自回归模型，并通过对连续扩散的最新改进来提高性能铺平了道路。

Nov, 2022