LDMol:基于文本条件的分子扩散模型,利用化学信息的潜在空间
本文介绍了一种基于扩散语言模型的文本导向分子生成方法 (TGM-DLM),该方法在生成具有特定文本描述的分子时克服了自回归方法的局限性,并通过两阶段的扩散生成过程共同和迭代地更新 SMILES 字符串中的标记嵌入。实验证明,TGM-DLM 模型在生成具有特定属性的连贯且准确的分子方面优于自回归模型 MolT5-Base,无需额外的数据资源,为药物发现和相关科学领域开辟了新的途径。
Feb, 2024
通过在语言模型中嵌入 3D 分子编码器,我们提出了 3D-MoLM:3D 分子语言建模,用于解决语言模型在理解三维分子结构方面的限制,在生物分子领域具有潜力。
Jan, 2024
本研究提出了一种基于几何潜变扩散模型(GeoLDM)的新方法,通过在潜空间中运行扩散模型来生成分子的三维几何结构。该方法对生成大分子的有效百分比有 7%的提升。
May, 2023
我们提出了一种基于 LLama 2 架构的单一新颖生成模型 LLamol,它在来自多样公共来源的 1300 万有机化合物的超集上进行了训练,并引入了一种名为 “Stochastic Context Learning” 的新的训练过程。该模型可以灵活地将三个数字和 / 或一个令牌序列加入到生成过程中,展示了在单一和多条件有机分子生成方面的熟练处理能力,使得 LLamol 成为一个易于扩展新属性的全新分子设计工具。
Nov, 2023
逆向分子设计的多条件扩散模型与转换器编码去噪模型相结合,成功实现了高性能材料和药物发现,并在聚合物和小分子生成任务中展示了优越的分布学习和条件控制表现。
Jan, 2024
该研究旨在利用基于配体的药物设计方法,根据已知活性分子的相似形状,寻找新的药物候选化合物。通过开发一种称为 ShapeMol 的新型生成模型,该模型可以根据给定分子的形状生成 3D 分子结构。实验结果表明,ShapeMol 可以生成与给定形状条件相似的新型多样化的类似药物的分子,展示了 ShapeMol 在设计与蛋白靶点结合的具有期望的 3D 形状的药物候选化合物方面的潜力。
Aug, 2023
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。
Jun, 2024
本研究介绍了 PathLDM,这是一种专为生成高质量组织病理学图像而设计的首个文本条件潜在扩散模型。通过利用病理学文本报告所提供的丰富语境信息,结合图像和文本数据,通过 GPT 的能力进行复杂文本报告的提炼和总结,我们实现了在 TCGA-BRCA 数据集上文本到图像生成方面的 SoTA FID 得分为 7.64,显著优于最接近的文本条件竞争对手的 30.1 的 FID 得分。
Sep, 2023