3M 扩散:基于文本引导的分子图生成的潜在多模态扩散
本研究介绍了一种基于文本的图像编辑方法,利用最新的扩散模型对一些基于文本主题的地方图像进行编辑,通过结合扩散模型的速度和 Blended Diffusion,提高了编辑的效率,并通过优化方法来解决扩散模型无法完美重建图像的问题,实现了比当前方法更高的精度和速度
Jun, 2022
MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架,可以通过概率映射、真实的合成方式,以及多级操作等方法,有效地生成复杂和多种变化的人类运动。
Aug, 2022
通过结合 CLIP 和 2D Diffusion 模型,我们提出了一种新的 3DStyle-Diffusion 模型,能够在文本驱动的几何和外观引导下,实现对 3D 网格的细粒度样式化。
Nov, 2023
本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法,并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题,取得了较好的效果。
Nov, 2022
提出了一种基础到高级的分层扩散模型(B2A-HDM),用于协同利用低维和高维扩散模型进行高质量的详细动作合成,其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。
Dec, 2023
本研究探索了扩散模型在生成音乐方面的潜力,提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐,同时开源相关代码和音频样本以促进领域内未来研究。
Jan, 2023
通过解释扩散模型为基于能量的模型,在训练和测试阶段中将一组扩散模型组合在一起,结构化生成,该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像,解决了 DALLE-2 在对象属性方面的困难。
Jun, 2022
本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法,该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制,将 2D 的扩散模型作为先验,通过梯度下降优化 3D 模型(Neural Radiance Field),并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据,也不需要修改图像扩散模型,证明了使用预训练的图像扩散模型作为先验的有效性。
Sep, 2022
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022