MolCAP:分子化学反应预训练及促进微调增强的分子表示学习
借助自监督学习的 REM0 框架,基于化学反应的上下文,对分子表示学习进行了预训练,提供了富含化学知识的有意义的上下文表示,用于支持各种下游分子任务,同时在活性分析基准中超过了指纹方法。
Feb, 2024
该研究提出使用化学反应来辅助学习分子表示,强制规定化学方程中反应物嵌入和生成物嵌入之和相等,以保持嵌入空间的良好组织,并提高分子嵌入的泛化能力。实验结果表明,该方法在多个下游任务中获得了最先进的性能。
Sep, 2021
通过将语言模型视为代理和分子预训练模型视为知识库,我们提出了一种新颖的方法,称为 MolTailor,它可以通过理解任务的自然语言描述来强调分子表示中与任务相关的特征,从而提高预测性能。通过评估,我们证明了 MolTailor 相较于基线模型表现出更好的性能,验证了增强分子表示学习相关性的有效性,展示了语言模型引导优化的潜力,以更好地利用和释放现有强大的分子表示方法的能力。
Jan, 2024
本文旨在使用反应数据进行预训练分子表示的过程,运用在 MoleculeNet 的 12 个分子属性预测任务上,结果显著地提高了预测模型的表现。
Jul, 2022
从数据中心的观点出发,本文研究了分子表示学习的神经缩放行为,在数据量、数据质量和模型容量等四个关键维度上,证实了数据量和分子表示性能之间的一致性幂律关系,并通过详细分析,发现了提高学习效率的可能途径。
Sep, 2023
学习分子表示是分子机器学习中一个关键步骤,它对于建模的成功具有重大影响,特别是在数据稀缺情况下。本研究引入了一种新颖的预训练策略,基底范围对比学习,通过学习与化学反应性相匹配的原子表示。该方法将已发布的基底范围表中的基底组织和收率视为其在化学反应性方面的相似性或差异性的度量。研究验证了预训练方法,并应用于产量预测、区域选择性预测和新基底的选择。该研究不仅提出了一种针对化学的神经网络预训练策略,学习与反应性相匹配的原子表示,而且还首次应用了基底范围设计中的人为偏见。
Feb, 2024
该研究提出了一个基于 LLMs 的多模态框架 MolTC,以图像化信息为基础,实现了统一的分子间相互作用预测,并进行了包括 400 万分子对的多数据集实验,证明了该方法在基于 GNN 和 LLM 的基准测试中的优越性。
Feb, 2024
本研究提出了 MoCoP 框架来学习分子图和细胞形态的多模态表示,并将其应用于 QSAR 模型以提高其性能。实验结果表明将细胞形态与分子图相融合能显著提高 QSAR 模型的性能。
Apr, 2023
本研究对比了随机森林、MolBERT 和 GROVER 三种基于 Extended-Connectivity Fingerprint、SMILES 字符串和分子图的分子表示学习模型,评估了其在 MoleculeNet 数据集和类阿片类物质数据集预测方面的效果,并探讨了数据集分布、活性悬崖、模型评价、任务设定和化学空间泛化等方面对模型效果的影响,旨在为提高该领域人工智能技术贡献可能的思路。
Sep, 2022
MolIG 是一种多模态分子预训练框架,通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务,有效地将两种分子表示形式的优势融合在一起,这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息,并在分子拓展组和 ADMET 拓展组等基准组中,相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。
Nov, 2023