AE-Flow：自动编码器归一化流

Dec, 2023

AE-Flow: AutoEncoder Normalizing Flow

Jakub Mosiński, Piotr Biliński, Thomas Merritt, Abdelhamid Ezzerg, Daniel Korzekwa

TL;DR我们引入一种新的训练范式：自编码器归一化流（AE-Flow），它通过添加重构损失，使模型使用条件信息重构音频样本，结果表明该方法在正常化流的训练中系统地提高了说话者相似性和自然度。

Abstract

Recently normalizing flows have been gaining traction in text-to-speech (TTS) and voice conversion (VC) due to their state-of-the-art (SOT

normalizing flows text-to-speech voice conversion ae-flow training paradigm

发现论文，激发创造

离散序列的潜在正则化流

提出了一种基于 VAE 的生成模型，该模型联合训练了基于正则化流的潜在空间分布和到观察到的离散空间的随机映射，解决了直接对离散序列应用正则化流所面临的挑战，并具有可比拟的性能和流灵活性。

Jan, 2019

图形规范化流

本文提出了一种新型、基于图的生成模型 —— 图可逆正则流，并尝试将其应用于监督学习和非监督学习任务中，与其他自回归模型相比表现良好且更适合于并行计算架构。

May, 2019

变分 Wasserstein 自编码器上的 Riemannian 正则化流用于文本建模

通过引入 Riemann 规范流 (RNF) 和 Wasserstein 变分自编码器（WAE），解决了 KL 消失困境，在样本建模、生成任务中的性能更优

Apr, 2019

SurVAE Flows: 通过满射函数填补 VAE 与 Flow 模型之间的鸿沟

本文提出了 SurVAE Flows 作为一个模块化的框架来组合深度学习中的生成模型 Normalizing flows 和 Variational autoencoders，通过使用双射变换来建模密度和可逆变换，桥接了两种模型之间的差距，同时介绍了一些通用操作。

Jul, 2020

VQ-Flows: 向量量化局部归一化流

介绍了一种基于本地 normalizing flows 和条件流的概率框架，通过学习 VQ-AE 和 chart maps 实现对数据流形上的复杂分布进行更好的建模。

Mar, 2022

利用正规化流生成新的语音

通过归一化流（normalizing flows）实现从训练时未见过的声音身份合成逼真、自然的合成语音的研究中，我们创建了一种文本转语音（TTS）和语音转换（VC）的方法，并使用客观和主观指标来评估技术在零样本和新声音语音合成任务中的性能，实验证明该方法能够在零样本语音合成和创造未在训练集中出现的多种新声音方面取得最先进的性能。

Dec, 2023

利用规范流和高效训练提升摘要生成

本研究提出了 FlowSUM，一种基于正则化流的变分编码器 - 解码器框架，用于 Transformer-based 摘要。我们的方法解决了变分摘要中两个主要挑战：潜在表示中的语义信息不足和训练期间的后验崩溃。为了解决这些挑战，我们采用正则化流来实现灵活的潜在后验建模，并提出了一种改进的门机制控制交替激进训练（CAAT）策略。实验结果表明，FlowSUM 显著提高了生成摘要的质量，并在对推理时间几乎没有影响的情况下释放了知识蒸馏的潜力。此外，我们研究了正则化流中的后验崩溃问题，并分析了训练策略、门初始化以及所使用的正则化流的类型和数量对摘要质量的影响，为未来的研究提供了有价值的见解。

Nov, 2023

基于归一化流的通用音频合成器控制

本文介绍了一种基于变分自编码器和归一化流的新型音频合成器控制形式，以寻找音频合成器的组织潜在声音空间并构建可逆映射到其参数空间的方法，能够同时解决自动参数推断、宏控制学习和基于音频预设的探索问题。实验证明其在参数推断和音频重建方面的优越性，同时还能学习到合成器的语义控制，具有广泛的创意应用价值。

Jul, 2019

用于无监督机器翻译的流式适配器架构

本文提出了一种基于 normalizing flows 的流适配器框架，用于无监督的 NMT，可以将每种语言单独训练，具有语言特定的句子表示和简单的转换机制，通过有监督 MT 以及正常流来捕捉潜变量，获得了相当不错的性能表现。

Apr, 2022

基于注意力平面归一化流的变分自编码器的物理整合生成建模

物理整合生成建模是一种混合或灰箱建模，其中我们用物理知识来增强数据驱动模型，使其在受控的方式下产生符合物理法则的输出，从而提高外推能力和解释性。本文旨在通过使用变分自动编码器作为生成模型来改善物理整合生成模型的重建保真度和对噪声的鲁棒性，通过计划正则化流来学习物理和可训练数据驱动组件的潜在后验分布，同时在编码器中引入基于缩放点乘注意力的上下文信息以减轻潜在向量中噪声的不利影响并使模型更加鲁棒。我们在人体运动数据集上对模型进行了实证评估，结果验证了我们提出的模型在重建质量和对模型注入噪声的鲁棒性方面的有效性。

Apr, 2024