VoiceFlow:具有修正流匹配的高效文本到语音
神经语音合成系统通常以 L1/L2 损失为优化目标,本研究比较了传统的基于 L1/L2 的方法与扩散和流模型在语音合成中的效果,并发现流模型在音谱图预测方面表现最佳,同时扩散和流模型在韵律预测方面也显著优于典型的 L2 训练模型。
Jul, 2023
Language Rectified Flow 是一种基于标准概率流模型改进的方法,通过学习(神经)常微分方程模型在源分布和目标分布之间进行转换,提供了生成建模和领域转换的统一有效解决方案。实验证明该方法在多个 NLP 任务中能够持续优于其基准方法,显示出普适性、有效性和益处。
Mar, 2024
大规模扩散模型在生成任务中取得了显著的性能。矫正流是一种新的生成模型类别,在各个领域展现出了优越的性能。通过理论和实验证据,我们展示了基于矫正流的方法与扩散模型具有相似的功能,可以作为有效的先验。此外,基于矫正流的先验方法在图像反转方面表现出优越的性能。
Jun, 2024
该论文介绍了一种端到端的跨语言文字转语音方法,使用基于非注意力 Tacotron 架构的模型,并通过使用条件为说话人身份的归一化流网络,实现 TTS 和语音转换(VC)的可同时进行,该方法可以在低资源情景下获得良好效果。
Oct, 2022
本文提出 DiffVoice,一种基于潜在扩散的文本转语音模型。在 LJSpeech 和 LibriTTS 数据集上的主观评价表明,我们的方法在自然度方面优于当前公开可用的最佳系统,并且通过采用最近的生成逆问题解决算法,DiffVoice 在基于文本的语音编辑和零样本适应方面实现了最先进的性能。
Apr, 2023
对于高维感知数据,扩散模型生成通过将数据从噪声逆向转换而得,并已成为一种强大的生成建模技术。最近,矫正流是一种将数据和噪声连接在一条直线上的生成模型表达形式。本研究通过偏向感知相关尺度来改进现有的噪声采样技术,以训练矫正流模型。通过大规模研究,我们证明了这种方法相对于已有的扩散公式在高分辨率文本到图像合成方面的优越性能。此外,我们提出了一种基于 Transformer 的文本到图像生成架构,该架构利用了两种模态的不同权重,并实现了图像和文本记号之间的双向信息流,从而改善了文本理解、排版和人体偏好评级。我们证明了这种架构遵循可预测的扩展趋势,并通过各种度量标准和人体评估来证实验证损失越低,文本到图像合成越好。我们的最大模型超过了现有的最先进模型,我们将公开我们的实验数据、代码和模型权重。
Mar, 2024
RFWave 是一种新颖的多频带矫正流方法,通过 Mel 频谱图重构高保真音频波形,具有 10 个采样步骤,可实现异常的重构质量和卓越的计算效率,速度快于实时 90 倍。
Mar, 2024
基于修正的流匹配,我们提出了 Frieren—— 一个视频到音频(V2A)生成模型,通过回归从噪声到频谱图的条件传输向量场来合成与内容匹配的音频,以高品质、高效率和视听时序同步性建立 V2A 模型依然具有挑战性。通过利用基于前馈变换器的非自回归向量场估计器和强时序对齐的通道级跨模态特征融合机制,我们的模型能够高度与输入视频同步生成音频,并通过回流和引导向量场的一步蒸馏,甚至在几个或仅一个采样步骤中产生不错的音频效果。实验结果表明 Frieren 在 VGGSound 上以 97.22% 的对齐准确率和相较于强基线扩散模型的 6.2% 改进的 Inception 分数,达到了最先进的生成质量和时序对齐性能。
Jun, 2024
本文提出了 FloWaveNet,一种基于可逆流的生成模型,使用单阶段训练程序和单个最大似然损失函数,无需附加的辅助项,能实时高效地输出与先前两阶段并行模型相媲美的清晰音频
Nov, 2018
通过归一化流(normalizing flows)实现从训练时未见过的声音身份合成逼真、自然的合成语音的研究中,我们创建了一种文本转语音(TTS)和语音转换(VC)的方法,并使用客观和主观指标来评估技术在零样本和新声音语音合成任务中的性能,实验证明该方法能够在零样本语音合成和创造未在训练集中出现的多种新声音方面取得最先进的性能。
Dec, 2023