RFWave:多频带整流流量用于音频波形重建
本文介绍了一种小型的 WaveFlow 产生式流,可以训练原始音频并合成高保真语音,只需几个步骤即可生成成千上万个时间步长的波形,并具有比 WaveGlow 小 15 倍的参数和 42.6 倍的音频合成速度。
Dec, 2019
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
Nov, 2018
本文介绍了 DiffWave,这是一种用于条件和非条件波形生成的多功能扩散概率模型。该模型高效地通过 Markov 链将白噪声信号转化为结构化波形,并通过特定的数据似然变分界限进行优化训练。DiffWave 在各种波形生成任务中均能生成高保真度音频,并在音频质量方面显著优于其他自回归和 GAN-based 波形模型。
Sep, 2020
WaveFace 通过在频域中分别处理低频和高频成分,解决了扩散模型在时间和身份保留方面的问题,高频成分通过统一网络处理,从而在身份保留和效率方面超越现有的扩散模型基础的 BFR 方法。
Mar, 2024
NU-Wave 2 模型是一种扩散模型,可以从不同采样率的输入产生 48KHz 音频信号,这个模型使用了短时傅里叶卷积和带宽谱特征变换方式来生成谐波,可以在不需要为每一对采样率都进行训练的情况下,生成高分辨率音频信号。
Jun, 2022
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波形变体,实验结果表明相较于其他最先进的神经语音生成系统,所提出的模型具有更高的合成质量。
Oct, 2023
本研究提出了一种基于编码器 - 解码器结构、包含跳跃连接、优化时间和频域的多损失函数的实时语音增强模型,可直接处理原始波形并消除各种背景噪音及实现房间回声,进行了多项标准测试,且通过数据扩增进一步完善模型性能及泛化能力,达到了最先进的性能。
Jun, 2020
利用新型采样框架和先进的扩散模型,我们提出了一种从射频数据中重建图像的方法,以加速高质量图像的生成过程。通过实验评估,我们的方法在单平面波条件下胜过了具有 75 个平面波空间相干合成的传统延迟和求和 (DAS) 技术。
Dec, 2023