SoundCTM: 合并基于分数和一致性模型的文本到声音生成

May, 2024

SoundCTM: 合并基于分数和一致性模型的文本到声音生成

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong...

TL;DR我们介绍了声音一致性轨迹模型（SoundCTM），该模型通过多步骤生成实现了高质量的一步骤和多步骤实时声音生成，并在训练中利用教师网络的特征距离进行了创新。

Abstract

sound content is an indispensable element for multimedia works such as video games, music, and films. Recent high-quality diffusion-based sound generation models can serve as valuable tools for the creators. Howe

sound content sound generation sound consistency trajectory models multi-step generation real-time sound generation

发现论文，激发创造

音乐一致性模型

MusicCM 利用一致性模型来高效合成音乐剪辑的 mel - 频谱图，通过最小化采样步骤保持高质量，并通过多个扩散过程生成连贯的音乐，实现了计算效率、保真度和自然性的有效性。

Apr, 2024

CM-TTS：通过加权采样器和一致性模型提高实时文本合成效率

通过引入连续时间扩散模型，CM-TTS 在不需要对抗训练或预训练模型依赖的情况下，在较少的步骤中实现了高质量的语音合成，通过动态概率设计加权采样器来确保整个训练过程的无偏学习。实验证实了 CM-TTS 相对于现有的单步语音合成系统的卓越性能，代表了该领域的重大进展。

Mar, 2024

一致性轨迹模型：学习扩散的概率流动 ODE 轨迹

一篇研究论文介绍了一种名为 Consistency Trajectory Model（CTM）的模型，能够在扩散过程中进行无限制的时间遍历，并通过使用梯度评分和增强性对抗训练来提高性能，实现了在 CIFAR-10 和 ImageNet 上的高质量采样和新的最先进指标。

Oct, 2023

用一致性蒸馏加速基于扩散的文本到音频生成

这项研究修改最近提出的一致性蒸馏框架，用于训练只需要单个神经网络查询的 TTA 模型，同时通过在音频空间中使用新的损失函数（如 CLAP 得分）对一致性 TTA 模型进行微调，从而在保留扩散模型高生成质量和多样性的同时，将查询次数减少了 400 倍。

Sep, 2023

一种简化的一致性模型

一种训练一致性模型的替代方案，通过表达常态模型轨迹的微分方程，提高训练效率，并显示出经典的幂律缩放规律。

Jun, 2024

图像操作的一般性一致轨迹模型

本文介绍了扩散式生成模型的成功之处以及其与一般 CTMs 和 GCTMs 的关系，并证明了 GCTMs 在图像操纵任务中的有效性。

Mar, 2024

高保真度语音合成的最小监督方法：全部使用扩散模型

我们提出了一种基于扩散模型的最小监督高保真语音合成方法，其中所有模块均基于扩散模型构建，非自回归框架增强了可控性，持续时间扩散模型实现了多样化的韵律表达。

Sep, 2023

轨迹一致性蒸馏

通过增加 Trajectory Consistency Distillation（TCD）的一组函数和策略性的随机采样的设计，可以显著提高图像生成质量，同时减少由多步一致性采样中积累的误差所致的细节不足，并且在较高的 NFEs 下相较于教师模型更加详细。

Feb, 2024

CoMoSpeech: 一步语音和歌唱声音合成的一致性模型

本文提出了一种基于一致性模型的语音合成方法 CoMoSpeech，采用单一扩散采样步骤实现语音合成。实验表明，CoMoSpeech 的推理速度比现实时间快 150 倍以上，并且在文本转语音和歌唱声音合成方面具有最佳音频质量。

May, 2023

文本引导的高清一致纹理模型

本文提出了高清晰一致纹理模型，使用深度图和文本提示生成高清晰、一致的三维 meshes 纹理。

May, 2023