神经网络扩散
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
通过在图像神经场上训练扩散模型,我们可以学习连续图像的分布,并显示其在分辨率上的优势。我们提出了一种简单而有效的方法,可以将现有的潜在扩散自动编码器转换为图像神经场自动编码器。通过使用混合分辨率图像数据集对其进行训练,我们证明了图像神经场扩散模型优于固定分辨率扩散模型后跟超分辨率模型,并能高效地解决应用于不同尺度的逆问题。
Jun, 2024
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
通过扩散模型对信道进行近似处理,提出了一个高效的基于扩散模型的端到端信道编码框架,模拟结果表明扩散模型能准确学习信道分布,从而实现接近最优的端到端符号误码率,并具有在高信噪比区域具有稳健的泛化能力的优势。
Sep, 2023
通过深度生成模型,特别是深度扩散模型,来合成 DNA 序列在合成生物学领域开辟了新的前景。我们提出了一种新颖的潜在扩散模型 (DiscDiff),通过将离散 DNA 序列嵌入连续的潜在空间,使用自编码器来利用连续扩散模型强大的生成能力生成离散数据。此外,我们引入了一种新的度量标准 Frechet Reconstruction Distance (FReD),用于衡量 DNA 序列生成结果的样本质量。我们的 DiscDiff 模型能够生成与真实 DNA 序列在 Motif 分布、潜在嵌入分布 (FReD) 和染色质剖面方面紧密相符的合成 DNA 序列。此外,我们还贡献了一个包含 15 个物种的 15 万个唯一启动子 - 基因序列的全面跨物种数据集,为未来基因组学中的生成建模工作提供丰富的资源。我们将在发表后公开我们的代码。
Oct, 2023
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
该论文提出了一种基于轻量级视觉扩散模型和层级扩散概念的视频生成框架,可在有限的计算预算下生成更真实、更长的视频,同时提供了大规模文本到视频生成的扩展应用。
Nov, 2022
提出了一种新的生成框架 DiffuseVAE,它将 VAE 与扩散建模框架相结合,为扩散模型提供了低维的 VAE 学习到的潜在代码,从而能够用于控制合成等下游任务,并且在速度与质量的平衡方面比标准无条件 DDPM / DDIM 模型要好,同时表现出与最先进的模型可比的综合质量,还显示出天生的对不同类型的噪声具有泛化能力。
Jan, 2022