面向语言模型中的三维分子 - 文本解释
我们提出了 3D-MolT5 框架,通过在特定的三维令牌词汇表上映射细粒度的三维亚结构表示,实现了一维分子序列和三维分子结构的无缝组合,在一个统一的架构中编码了分子序列、分子结构和文本序列。对于分子属性预测、分子说明和基于文本的分子生成任务,我们的 3D-MolT5 在多个下游数据集上展现出优异的性能。
Jun, 2024
通过 3DToMolo 这一多模式引导生成 / 优化任务的文本结构对齐对称扩散框架,我们提出了一种创新方法来解决分子设计问题,取得了优于现有方法的结果表现,并能够生成包含指定目标亚结构的新型分子。
Mar, 2024
本研究设计和装备 MolX 作为一种多模态外部模块,通过使用特定编码器从 SMILES 字符串和 2D 分子图表示中提取细粒度特征,从而增强了大型语言模型(LLMs)在理解分子方面的能力。实验结果表明,我们提出的方法在多种分子相关任务中表现出色,包括从分子到文本的翻译和分子的逆合成,无论是否对 LLM 进行微调。
Jun, 2024
LDMol 是一种新颖的潜在扩散模型,能够实现自然语言条件下的分子生成,并通过对比学习策略来提取化学信息特征空间,不仅在文本到分子生成基准测试中超过现有基准,还能进行零样本推理和相关任务如分子到文本检索和以文本为驱动的分子编辑,展示了它作为扩散模型的通用性。
May, 2024
通过提取三维特征和使用对比学习的方法,我们的研究提出了一种名为 3D-Mol 的新型三维结构分子建模方法,用于准确表示空间结构,并在 7 个基准测试中展示了出色的性能。
Sep, 2023
该研究介绍了一种新的多模态分子结构 - 文本模型 MoleculeSTM,它结合学习化学结构和文本描述,以有效利用化学领域中丰富的文本知识,同时提高药物设计的效率和创新能力,并在多个基准测试中获得了最先进的泛化能力。
Dec, 2022
本文提出了一种基于口袋的三维分子生成方法,利用具有生成 3D 坐标能力的语言模型,并设计了扰动复原预训练任务,介绍了一种新的分子表示方法,并利用 CrossDocked 和 DUD-E 数据集对其进行了评估。该方法在几乎所有指标上实现了最优的表现,特别是在结合模式、药物性质、合理构型和推理速度方面。
May, 2023
MolCA 是一种使用跨模态计算器和单模适配器的分子图 - 语言建模方法,能够通过将图编码器的表示空间和语言模型的文本空间连接,使语言模型理解基于文本和图的分子内容。
Oct, 2023
大型语言模型(LLM)在生物化学任务中表现出卓越的性能,特别是分子字幕翻译任务,在分子和自然语言文本之间建立联系。然而,先前的方法在将 LLM 调整到分子 - 字幕翻译任务中需要额外的领域特定预训练阶段,分子和文本空间之间的对齐性较弱,或者对 LLM 的规模有严格要求。为了解决这些挑战,我们提出了一种新的范式:上下文分子适应(ICMA),允许 LLM 通过上下文示例来学习分子 - 文本对应关系。实验证明,ICMT 可以使 LLM 在没有额外的训练语料库和复杂结构的情况下实现最先进的或相当的性能,表明 LLM 本质上是上下文中的分子学习器。
Mar, 2024
将大型语言模型 (LLMs) 整合到化学领域是一个复杂的任务,本文以细致的方法论探索了该跨学科领域的复杂性和创新,从分子信息如何通过各种表示和标记方法导入 LLMs 开始,将化学 LLMs 分为三个不同的群体,并讨论了将这些输入整合到 LLMs 的方法,然后探讨了应用 LLMs 在化学中的多样化应用,包括在化学任务中的新范例,最后确定了有望的研究方向,包括进一步整合化学知识,持续学习的进展以及模型可解释性的改进,为该领域的突破性发展铺平了道路。
Feb, 2024