自回归扩散变换器用于文本到语音合成

Jun, 2024

自回归扩散变换器用于文本到语音合成

Autoregressive Diffusion Transformer for Text-to-Speech Synthesis

Zhijun Liu, Shuai Wang, Sho Inoue, Qibing Bai, Haizhou Li

TL;DR通过使用连续空间中的向量序列将音频编码为完美重构的高码率连续语音表示，我们提出了一个仅使用解码器的扩散变换器（ARDiT），在零样本语音合成和其他生成任务中表现出与最先进模型相当或优于其的性能。通过在自回归步骤中采用积分 Kullback-Leibler 散度进行蒸馏，我们显著提高了样本的感知质量，并将扩散模型的迭代采样过程压缩为单一步骤。此外，ARDiT 可以训练以一步预测多个连续向量，从而显著减少采样时的延迟。

Abstract

audio language models have recently emerged as a promising approach for various audio generation tasks, relying on audio tokenizers to encode waveforms into sequences of discrete symbols. Audio tokenization often

audio language models audio tokenizers continuous speech representation ardit integral kullback-leibler divergence

发现论文，激发创造

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023

DiTTo-TTS：高效可扩展的零样本文本到语音系统基于扩散 Transformer

利用大规模扩散模型做无领域特定建模的语音合成，通过跨注意机制和对语音表示总长度的预测来解决文本 - 语音对齐的问题，在语音的潜在空间中结合语义引导进行提升。该模型在 82K 小时的训练数据和 790M 参数的模型规模上进行了训练，实验证明它在自然度、可懂度和说话人相似度等指标上不仅简化了训练流程，而且具有与最先进的 TTS 模型相媲美的零 - shot 性能。

Jun, 2024

LaDiC：扩散模型在图像生成的文本方面真的不如自回归模型吗？

Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.

Apr, 2024

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Oct, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

Diffsound: 文本生成音效的离散扩散模型

本研究提出了一种基于非自回归解码器、矢量量化变分自编码器、谱图及声码器的文本到声音生成框架，在声音生成效果和速度方面较传统的自回归解码器都有较大的提升。

Jul, 2022

ART・V: 基于扩散模型的自回归文本到视频生成

ART・V 是一个高效的自回归视频生成框架，使用扩散模型逐帧生成视频，并通过简化连续帧之间的运动来避免建模复杂的远程运动，同时保留预训练图像扩散模型的高保真生成能力。通过结合文本、图像等多种提示，ART・V 可以生成任意长度的视频，具有高度的多功能性和灵活性。通过引入掩蔽扩散模型和使用初始帧作为条件，ART・V 进一步提升了生成一致性和生成的视觉质量，能够在短时间内生成带有自然运动、丰富细节和高美感的视频，并支持多个文本提示组合成长视频的应用。

Nov, 2023

强化条件下的文本扩散

通过分析文本扩散模型的限制，本文提出了一种名为 TREC 的新型文本扩散模型，通过强化条件和时间感知方差缩放来减轻语言离散性问题，在与自回归、非自回归和扩散基线的对比实验中展示了 TREC 的竞争力，并通过定性分析显示其在优化样本中充分利用扩散过程的先进能力。

Feb, 2024

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023