二元潜在扩散
通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间,本文提出了一种有效压缩 3D 几何和纹理信息的方法,并引入了 3D 感知交叉注意机制,从高分辨率的 3D 特征体积中查询特征,提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件,通过扩散先验模型估计形状嵌入,实现了优于现有算法的性能,且仅在单个 A100 GPU 上耗时 7 秒。
Mar, 2024
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
本研究探讨了生成建模中潜在空间选择的最优解以及其确定过程,并提出了一种新的距离度量方法和具体的训练策略来优化潜在空间的选择,进而提高生成效果。
Jul, 2023
基于潜在伯努利扩散模型的新颖快速非监督异常检测方法,通过自编码器将输入图像压缩成二进制潜在表示,使用伯努利噪声进程的扩散模型从扰动的潜在空间进行训练以恢复二进制潜在表示,并基于这些概率提出了基于掩蔽算法来改进异常检测评分,具有超越其他基于扩散的非监督异常检测算法的最新性能,同时显著减少了采样时间和内存消耗。
Mar, 2024
本文提出了一种基于卷积流形的新型潜在模型用于大规模数据集的自然图像学习,该模型可用于多种图像修复任务,包括大空洞修补、超分辨率和上色等,相比于其他模型,本模型在一定范围内表现更为优异。
Jun, 2018
相关研究通过在深度神经网络分类器的潜在空间中引入线性倒数第二层进行训练,其中损失函数随着潜在空间中坐标的平方指数增长,促使了二进制编码的出现。这种现象是神经坍缩的一个特定实例,它在训练的最后阶段出现,导致潜在类均值崩溃到等角紧框图的顶点。我们展示了二进制编码加速收敛到等角紧框图并提高分类准确度的效果。
Oct, 2023
提出了一种新的生成框架 DiffuseVAE,它将 VAE 与扩散建模框架相结合,为扩散模型提供了低维的 VAE 学习到的潜在代码,从而能够用于控制合成等下游任务,并且在速度与质量的平衡方面比标准无条件 DDPM / DDIM 模型要好,同时表现出与最先进的模型可比的综合质量,还显示出天生的对不同类型的噪声具有泛化能力。
Jan, 2022
提出了一种新颖的极端图像压缩框架,该框架将压缩 VAEs 和预训练的文本到图像扩散模型结合在一起,通过潜在特征引导压缩模块进行图像压缩并解码为内容变量,然后利用预训练的扩散模型进一步解码这些内容变量,实验结果表明在极低比特率下,该方法在视觉表现和图像保真度方面优于现有方法。
Apr, 2024
本研究探索使用可扩散概率模型作为自编码器的解码器,让输入图像生成一个可以被意义化和解码的编码向量,该编码向量分为两部分:第一部分是含有语义的线性编码,而第二部分是建模随机变量的编码,提升了图像生成的质量并且在其他应用中可以用来做属性调整和去噪等任务。
Nov, 2021