用于去模糊变分自编码器的短时傅里叶变换
本文介绍了一种新的变分自编码器 (VAE) 的重构项,它特别惩罚生成模糊图像的能力,同时仍然最大化建模分布下的 ELBO。在三个不同的数据集上展示了该损失函数的潜力,优于 VAE 的几种最近提出的重建损失。
Apr, 2023
本文提出了一种用于增强 VQ-VAE 结构的频率补全模块 (Frequency Complement Module, FCM),并且引入了一种动态频谱损失 (Dynamic Spectrum Loss, DSL),用于引导 FCM 动态地平衡频率以获得最佳重建。FA-VAE 进一步扩展到了文本到图像合成任务中,并提出了交叉注意力自回归变换器 (Cross-attention Autoregressive Transformer, CAT) 以获得更精确的文本语义属性。通过在几个基准数据集上进行广泛的重建实验,并与其它最先进的方法进行比较,结果表明,所提出的 FA-VAE 能够更忠实地恢复细节。CAT 在图像文本语义对齐方面也显示出了更好的生成质量。
May, 2023
通过在变分自编码器中添加缩小版本的图像随机变量,提高图像生成的质量表现,使该方法在负对数似然方面和 VAE 表现相当,同时在数据合成方面获得更好的 FID 得分。
Jun, 2020
利用预测时间下一节点以及基于时间平滑性的模型选择度量,我们提出了一种能够减轻 VAE 学习虚假特征,并能在合成数据集中准确恢复潜在因素的 VAE 架构。
Dec, 2023
本文提出了一种新的变分自编码模型优化标准,推广了标准的证据下界,提供了它们恢复数据分布和学习潜在特征的条件,并在形式上证明了通常出现模糊样本和无信息潜在特征等常见问题的条件。基于这些新的见解,我们提出了一种新的序列化 VAE 模型,可以基于像素逐一重构损失在 LSUN 图像数据集上生成清晰的样本,并提出一种旨在鼓励无监督学习信息潜在特征的优化标准。
Feb, 2017
我们提出了一种新的无监督异常检测方法 FCVAE,通过同时集成全局和局部频率特征,显著提高了正常数据的重构准确性,以解决基于 VAE 的方法在捕捉长周期异质模式和详细短周期趋势方面面临的挑战。通过精心设计的 “目标注意力” 机制,我们的方法能够从频域选择最有用的信息以更好地构建短周期趋势。在公开数据集和大规模云系统上对 FCVAE 进行了评估,结果表明它优于最先进的方法,验证了我们的方法在解决当前基于 VAE 的异常检测模型的局限性方面的实际适用性。
Feb, 2024
本研究展示了狭窄频率域中缩小误差能够进一步改善图像重建和合成质量,提出了新的焦点频率损失函数并在多种流行的模型中展示其作用,同时对 StyleGAN2 的潜在性进行了探讨。
Dec, 2020
结合深度变分自编码器(VAEs)和自监督学习(SSL)的新型生成框架,解决了数据稀缺导致的潜在空洞问题,提高了基于重建的时序异常检测方法的稳健性。
Jan, 2024
为了训练变分自编码器以生成真实图像,我们提出了一种基于 Watson 视觉模型的损失函数,通过计算颜色图像中的加权距离和掩模来反映人类对图像相似性的知觉,并将其拓展到彩色图像上。在实验中,VAE 利用新的损失函数进行训练可生成更真实、高质量的图像样本,相较于欧几里得距离和结构相似性指数,图像模糊度更低,与基于深度神经网络的损失相比,新方法需要更少的计算资源,并且生成的图像具有更少的伪影。
Jun, 2020