RFWave：多频带整流流量用于音频波形重建

Mar, 2024

RFWave：多频带整流流量用于音频波形重建

RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction

Peng Liu, Dongyang Dai

TL;DRRFWave 是一种新颖的多频带矫正流方法，通过 Mel 频谱图重构高保真音频波形，具有 10 个采样步骤，可实现异常的重构质量和卓越的计算效率，速度快于实时 90 倍。

Abstract

Recent advancements in generative modeling have led to significant progress in audio waveform reconstruction from diverse representations. Although →

generative modeling audio waveform reconstruction diffusion models rfwave mel-spectrograms

发现论文，激发创造

WaveFlow: 面向原始音频的紧凑流模型

本文介绍了一种小型的 WaveFlow 产生式流，可以训练原始音频并合成高保真语音，只需几个步骤即可生成成千上万个时间步长的波形，并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。

Dec, 2019

VoiceFlow：具有修正流匹配的高效文本到语音

VoiceFlow 是一种声学模型，利用修正流匹配算法实现高质量综合音频的有限采样步骤，比扩散对应模型具有更好的合成质量。

Sep, 2023

FloWaveNet：用于原始音频的生成流

本文提出了 FloWaveNet，一种基于可逆流的生成模型，使用单阶段训练程序和单个最大似然损失函数，无需附加的辅助项，能实时高效地输出与先前两阶段并行模型相媲美的清晰音频

Nov, 2018

DiffWave：一种用于音频合成的通用扩散模型

本文介绍了 DiffWave，这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形，并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频，并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。

Sep, 2020

从离散的标记到高保真音频的多频带扩散

利用高保真多带扩散模型，基于低比特率离散表示生成任何类型的音频，其感知质量比最先进的生成技术更好。

Aug, 2023

WaveFace：高效频域恢复的真实面部修复

WaveFace 通过在频域中分别处理低频和高频成分，解决了扩散模型在时间和身份保留方面的问题，高频成分通过统一网络处理，从而在身份保留和效率方面超越现有的扩散模型基础的 BFR 方法。

Mar, 2024

NU-Wave 2: 一个通用的神经音频上采样模型，适用于各种采样率

NU-Wave 2 模型是一种扩散模型，可以从不同采样率的输入产生 48KHz 音频信号，这个模型使用了短时傅里叶卷积和带宽谱特征变换方式来生成谐波，可以在不需要为每一对采样率都进行训练的情况下，生成高分辨率音频信号。

Jun, 2022

DiffAR: 去噪扩散自回归模型用于原始语音波形生成

本文提出了一种基于扩散的概率端到端模型，用于生成原始语音波形，该模型通过自回归的方式顺序生成重叠帧，可以实现无限语音时长的合成，并保持高保真度和时间连贯性，通过直接处理波形具有优势，可以创建局部声学行为，同时该模型是随机的，生成略有差异的波形变体，实验结果表明相较于其他最先进的神经语音生成系统，所提出的模型具有更高的合成质量。

Oct, 2023

波形域中的实时语音增强

本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型，可直接处理原始波形并消除各种背景噪音及实现房间回声，进行了多项标准测试，且通过数据扩增进一步完善模型性能及泛化能力，达到了最先进的性能。

Jun, 2020

超声图像重建的快速采样生成模型

利用新型采样框架和先进的扩散模型，我们提出了一种从射频数据中重建图像的方法，以加速高质量图像的生成过程。通过实验评估，我们的方法在单平面波条件下胜过了具有 75 个平面波空间相干合成的传统延迟和求和 (DAS) 技术。

Dec, 2023