基于扩散语言模型的文本引导分子生成

AAAIFeb, 2024

基于扩散语言模型的文本引导分子生成

Text-Guided Molecule Generation with Diffusion Language Model

Haisong Gong, Qiang Liu, Shu Wu, Liang Wang

TL;DR本文介绍了一种基于扩散语言模型的文本导向分子生成方法 (TGM-DLM)，该方法在生成具有特定文本描述的分子时克服了自回归方法的局限性，并通过两阶段的扩散生成过程共同和迭代地更新 SMILES 字符串中的标记嵌入。实验证明，TGM-DLM 模型在生成具有特定属性的连贯且准确的分子方面优于自回归模型 MolT5-Base，无需额外的数据资源，为药物发现和相关科学领域开辟了新的途径。

Abstract

text-guided molecule generation is a task where molecules are generated to match specific textual descriptions. Recently, most existing SMILES-based molecule generation methods rely on an autoregressive architecture

text-guided molecule generation diffusion language model autoregressive architecture smiles string drug discovery

发现论文，激发创造

3M 扩散：基于文本引导的分子图生成的潜在多模态扩散

使用 3M-Diffusion 方法，可以根据给定的文本描述生成与之语义匹配的，高质量、新颖、多样化的分子图。

Mar, 2024

LDMol：基于文本条件的分子扩散模型，利用化学信息的潜在空间

LDMol 是一种新颖的潜在扩散模型，能够实现自然语言条件下的分子生成，并通过对比学习策略来提取化学信息特征空间，不仅在文本到分子生成基准测试中超过现有基准，还能进行零样本推理和相关任务如分子到文本检索和以文本为驱动的分子编辑，展示了它作为扩散模型的通用性。

May, 2024

MDM: 用于 3D 分子生成的分子扩散模型

本文提出了一种新的扩散模型来解决 3D 分子生成中的两大挑战，即缺乏分子间关系和探索不足，该模型表现明显优于现有方法。

Sep, 2022

TAGMol: 目标感知梯度引导的分子生成

3D 生成模型在结构基药物设计中表现出显著的潜力，尤其在发现适应特定靶点结合位点的配体方面。TAGMol 是一个综合的药物生成框架，通过将问题分解为分子生成和特性预测，并通过引导扩散采样过程来实现生成具有所需特性的有意义的分子。在基准数据集上进行的实验证明，TAGMol 相对于现有先进算法具有优越性能，在平均 Vina 分数上提高了 22％，并在重要辅助属性方面取得了良好的结果。

Jun, 2024

SSD-LM: 基于 Simplex 扩散和半自回归的语言模型，用于文本生成和模块化控制

本论文介绍了 SSD-LM - 一种扩散语言模型，它是半自回归的，可以迭代地生成文本块，在不适用 GPT-2 后，它在标准的质量和多样性指标上与 strong autoregressive 基线匹配或优于其性能

Oct, 2022

基于几何潜在扩散模型的三维分子生成

本研究提出了一种基于几何潜变扩散模型（GeoLDM）的新方法，通过在潜空间中运行扩散模型来生成分子的三维几何结构。该方法对生成大分子的有效百分比有 7％的提升。

May, 2023

面向语言模型中的三维分子 - 文本解释

通过在语言模型中嵌入 3D 分子编码器，我们提出了 3D-MoLM：3D 分子语言建模，用于解决语言模型在理解三维分子结构方面的限制，在生物分子领域具有潜力。

Jan, 2024

基于几何优化的去噪扩散模型用于三维分子生成

提出了一种名为几何促进分子扩散（GFMDiff）的新型分子生成方法，通过引入双轨 Transformer 网络（DTN）和几何促进损失（GFLoss）解决了构成二元边和模型分子几何形状的多体间相互关系的建模问题。在现有基准上的全面实验证明了 GFMDiff 的优越性。

Jan, 2024

教师 - 学生大型语言模型使用多约束分子生成指导

提出了一种多约束分子生成大型语言模型（TSMMG），通过提取多个 “教师” 模型和工具的分子知识构建大量的文本 - 分子对，实现了生成符合各种文本提示描述的新型分子。TSMMG 在生成满足复杂的自然语言描述的化学属性要求的分子方面表现出色，平均分子有效性超过 99％，成功比率分别为 88.08％，65.27％和 61.44％。该模型还具有零 - shot 测试的适应性，可以生成满足尚未遇到的属性组合的分子，并且可以处理具有不同语言风格的文本输入。TSMMG 的知识蒸馏功能对小模型的持续增强起到了积极的作用，并且创新的数据集构建方法有效解决了数据稀缺和质量问题，使其成为药物发现和材料科学领域的有 promising 工具。

Mar, 2024

用于生成３D 分子的几何完备扩散

提出了 GCDM 模型，该模型采用几何完整的消息传递图神经网络，在 DDPM 框架内宣称新的 3D 分子扩散生成的最新成果，并提供了与分子 DDPM 生成动态相关的物理归纳偏差的初步见解。

Feb, 2023