双工扩散模型改进语音对语音翻译

ACLMay, 2023

双工扩散模型改进语音对语音翻译

Duplex Diffusion Models Improve Speech-to-Speech Translation

Xianchao Wu

TL;DR本文提出了一种基于双向扩散模型的可逆性语音翻译方法，通过将扩散概率模型应用于可逆的 Conformer 的两侧，使两个方向都能同时输入和输出不同语言的语音。实验表明，该模型在 ASR-BLEU 得分方面取得了显著的改进，成为了可逆性语音翻译的第一项成功。

Abstract

speech-to-speech translation is a typical sequence-to-sequence learning task that naturally has two directions. How to effectively leverage bidirectional supervision signals to produce high-fidelity audio for both directions? Existing approaches either train two separate models or a mu

speech-to-speech translation bidirectional supervision signals duplex diffusion model conformer reversible speech translation

发现论文，激发创造

高效多语言语音转语音翻译的扩散合成器

DiffuseST 是一种低延迟的直接语音到语音翻译系统，能够在将多种源语言翻译为英语时保持输入讲话人的声音；我们通过比较基于 Tacotron 的合成器和基于扩散的合成器，发现基于扩散的合成器在提高音频质量度量 MOS 和 PESQ 各自达到 23％以及讲话人相似度提高 5％的同时，保持相当的 BLEU 得分；尽管参数数量超过两倍，扩散合成器具有更低的延迟，使整个模型的运行速度超过实时的 5 倍以上。

Jun, 2024

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

TransFusion: 用多项式扩散转录语音

本文旨在探究扩散模型用于语音识别的潜在性，提出了以预训练的语音特征为条件的扩散模型 TransFusion，并通过 LibriSpeech 语音识别基准测试展示了与现有高性能反差模型可比的性能。同时，我们提出了有效采样和译码多项式扩散模型的新技术。

Oct, 2022

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

音频扩散模型：关于生成 AI 中的文本转语音和语音增强的综述

本文对音频扩散模型进行了调查，针对文本转语音和语音增强这两个活跃任务，它将方法分为三类，即声学模型、波导合成和端到端框架，并通过添加或去除特定信号将各种语音增强任务进行分类，最后进行实验结果比较和讨论。

Mar, 2023

DiffS2UT：一种保持语义的无文本直接语音翻译扩散模型

通过在连续语音表示空间中应用向前扩散，同时在离散语音单位空间中应用向后扩散，我们提出了一种新的扩散模型，以此在扩散过程中保留了连续语音表示空间的语义结构，并整合了连续和离散扩散模型。在无文本直接语音翻译任务上进行了大量实验，该方法与计算密集型的自回归基线方法（平均 500 步骤）相比，具有显著较少的解码步骤（50 步骤），并获得了可比较的结果。

Oct, 2023

双语模型用于混合语言语音识别

本文提出了一种针对双语混杂文本的语言模型的新方法，即双语言模型，该方法使用单一语言模型的结构来改进标准的双语言模型，并将两个互补的单一语言模型结合在一起，以概率切换模型进行切换。我们使用一种会话式汉英语音语料库评估了该方法的有效性，并证明了我们的模型的鲁棒性，表明在不使用任何外部信息的情况下，在困惑度措施和自动语音识别错误率方面都会显著提高。

Nov, 2017

BDDM: 双边降噪扩散模型用于高质量和快速语音合成

提出了一种新的双边去噪扩散模型，使用日程网络和分数网络参数化正向和反向过程，实现有效的采样和噪声调度优化，可产生高保真音频样本。

Mar, 2022

用于稳健和高效数据的端到端语音翻译的关注传递模型

通过多任务训练，提出了一种使用两个注意力机制的端到端可训练模型，用于直接语音翻译。该模型明显优于其他基线模型，并能更有效地利用辅助训练数据，特别适合于多任务训练。

Apr, 2019