3M 扩散：基于文本引导的分子图生成的潜在多模态扩散

Mar, 2024

3M 扩散：基于文本引导的分子图生成的潜在多模态扩散

3M-Diffusion: Latent Multi-Modal Diffusion for Text-Guided Generation of Molecular Graphs

Huaisheng Zhu, Teng Xiao, Vasant G Honavar

TL;DR使用 3M-Diffusion 方法，可以根据给定的文本描述生成与之语义匹配的，高质量、新颖、多样化的分子图。

Abstract

Generating molecules with desired properties is a critical task with broad applications in drug discovery and materials design. Inspired by recent advances in large →

molecules properties language models graph generation textual description

发现论文，激发创造

混合潜在扩散

本研究介绍了一种基于文本的图像编辑方法，利用最新的扩散模型对一些基于文本主题的地方图像进行编辑，通过结合扩散模型的速度和 Blended Diffusion，提高了编辑的效率，并通过优化方法来解决扩散模型无法完美重建图像的问题，实现了比当前方法更高的精度和速度

Jun, 2022

运动漫化：基于扩散模型的文本驱动人体动作生成

MotionDiffuse 是一种基于扩散模型的文本驱动运动生成框架，可以通过概率映射、真实的合成方式，以及多级操作等方法，有效地生成复杂和多种变化的人类运动。

Aug, 2022

3DStyle-Diffusion：使用 2D 扩散模型追求细粒度基于文本的 3D 风格化

通过结合 CLIP 和 2D Diffusion 模型，我们提出了一种新的 3DStyle-Diffusion 模型，能够在文本驱动的几何和外观引导下，实现对 3D 网格的细粒度样式化。

Nov, 2023

3DDesigner: 基于文本引导扩散模型的照片般逼真的 3D 物体生成和编辑

本文提出了一种基于文本引导扩散模型的 3D 场景生成、编辑和新视角合成方法，并重点讨论了 3D 一致性、本地编辑和单张图像训练等基础问题，取得了较好的效果。

Nov, 2022

基础到高级的分层传播模型实现详细的文本到动作合成

提出了一种基础到高级的分层扩散模型（B2A-HDM），用于协同利用低维和高维扩散模型进行高质量的详细动作合成，其多变量去噪框架和生成潜力的全面探索使其在真实性、模态一致性和多样性方面优于现有的顶尖方法。

Dec, 2023

Moûsai: 长上下文潜在扩散的文本生成音乐

本研究探索了扩散模型在生成音乐方面的潜力，提出了一种级联的潜在扩散方法来根据文本描述生成高质量的立体声音乐，同时开源相关代码和音频样本以促进领域内未来研究。

Jan, 2023

可组合扩散模型下的组合视觉生成

通过解释扩散模型为基于能量的模型，在训练和测试阶段中将一组扩散模型组合在一起，结构化生成，该方法可用于合成预训练的文本指导的扩散模型并生成生动逼真的图像，解决了 DALLE-2 在对象属性方面的困难。

Jun, 2022

DreamFusion: 使用 2D 扩散进行文本到 3D 转换

本文提出了一种使用基于文本转图像的扩散模型进行文本到 3D 合成的方法，该方法绕过了需要大规模标记的 3D 数据集和能够去噪的 3D 数据的限制，将 2D 的扩散模型作为先验，通过梯度下降优化 3D 模型（Neural Radiance Field），并使用概率密度蒸馏引入的损失函数将 2D 扩散模型与 3D 模型相结合。这种方法不需要 3D 训练数据，也不需要修改图像扩散模型，证明了使用预训练的图像扩散模型作为先验的有效性。

Sep, 2022

TextDiffuser-2：释放语言模型在文本呈现中的能力

通过使用语言模型进行布局规划，TextDiffuser-2 能够实现更合理的文本布局和具有增强多样性的生成。

Nov, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022