DiVAE：具有去噪扩散解码器的真实感图像合成

Jun, 2022

DiVAE：具有去噪扩散解码器的真实感图像合成

DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder

Jie Shi, Chenfei Wu, Jian Liang, Xiang Liu, Nan Duan

TL;DR该研究提出了一种使用 VQ-VAE 和扩散解码器的 DiVAE 图像生成模型，相关实验结果表明该模型能够生成高度逼真的图像，特别适用于条件综合任务。

Abstract

Recently most successful image synthesis models are multi stage process to combine the advantages of different methods, which always includes a vae-like model for faithfully reconstructing embedding to image and

image synthesis vae diffusion model divae conditional synthesis

发现论文，激发创造

DiffuseVAE: 从低维潜变量中高效、可控、高保真生成

提出了一种新的生成框架 DiffuseVAE，它将 VAE 与扩散建模框架相结合，为扩散模型提供了低维的 VAE 学习到的潜在代码，从而能够用于控制合成等下游任务，并且在速度与质量的平衡方面比标准无条件 DDPM / DDIM 模型要好，同时表现出与最先进的模型可比的综合质量，还显示出天生的对不同类型的噪声具有泛化能力。

Jan, 2022

使用潜在扩散模型进行高分辨率图像合成

通过在预训练的自编码器的潜在空间中应用扩散模型，引入交叉注意力层到模型体系结构中，以更少的计算要求取得接近最优的性能，实现高分辨率合成，缩小像素级 DMs 对计算资源的需求。

Dec, 2021

文本到图像的向量量化扩散模型

本论文提出了基于矢量量化扩散模型的文本到图像生成方法，在扩散条件变量程序模型的潜在空间中建模基于矢量量化变分自编码器的方法，消除了现有方法中的单向偏差，并允许我们结合掩模和替换扩散策略以避免误差积累，其结果在生成复杂场景的图像方面得到了显着的改进。

Nov, 2021

变分扩散自编码器：具有无条件扩散先验的深层潜变量模型

采用扩散模型集成编码器和无条件扩散模型的得分函数，消除了 VAE 图像模糊的问题，并显著提高了性能。

Apr, 2023

ViT-DAE：基于 Transformer 的扩散自编码器用于组织病理学图像分析

本文介绍了一种基于 ViT 深度学习模型和 Denoising Diffusion 自编码器的新型方法 ViT-DAE，用于高质量的组织病理学图像合成，实验表明 ViT-DAE 比最近的基于 GAN 和原始 DAE 方法更能生成逼真的图像。

Apr, 2023

生成、重建和表示离散与连续数据：具有可学习的编码解码的广义扩散

通过引入可学习的编码器 - 解码器，DiLED 广义扩展了常规扩散过程的高斯噪声去噪方法，在不同数据类型上具有广泛适用性和提升性能。实验证明 DiLED 在处理各种数据和任务上都有很好的灵活性，并在不同已有模型上取得了显著的改进。

Feb, 2024

条件去噪漫扩散在顺序推荐中的应用

本研究提出了一种条件去噪扩散模型以应对生成敌对网络和变分自编码器在顺序推荐任务中的挑战，通过将过程分成易于处理的步骤来简化优化和推荐任务，同时采用新的优化模式，模型能够生成高质量的序列 / 项目表示并防止折叠

Apr, 2023

扩散模型在图像分类上胜过 GAN

本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型，并发现这种模型在图像分类任务中具有优异的性能，特别是在经过精心特征选择和池化的情况下，扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法

Jul, 2023

扩散变分推断：扩散模型作为表达丰富的变分先验

我们提出了去噪扩散变分推断（DDVI）算法，它是一种基于扩散模型作为表达性变分后验的潜变量模型的近似推断算法。我们的方法通过辅助潜变量来增强变分后验，从而得到一类表达性模型，通过反转用户指定的噪声过程在潜变量空间中进行扩散。通过优化受 wake-sleep 算法启发的边缘似然的一种新的下界，我们拟合这些模型。我们的方法易于实现（它适用于正则化的 ELBO 进一步扩展），与黑盒变分推断兼容，并且优于基于归一化流或对抗网络的替代近似后验类别。当应用于深层潜变量模型时，我们的方法得到了去噪扩散 VAE（DD-VAE）算法。我们将该算法应用于生物学中的一个激励任务 -- 从人类基因组推断潜在祖先 -- 在 Thousand Genomes 数据集上优于强基线模型。

Jan, 2024

Brain-Diffuser: 使用生成潜在扩散从 fMRI 信号中重建自然场景

利用神经解码技术和新型图像生成的巨大进展，我们提出了一个两阶段场景重建框架（Brain-Diffuser），它能够从 fMRI 信号中推断出场景的低级特征和整体布局，随后通过潜在扩散模型生成最终重建的图像。该方法在公开数据集基准测试中表现出色，在应用（例如脑机接口）和基础神经科学方面都有深远的影响。

Mar, 2023