MolCAP：分子化学反应预训练及促进微调增强的分子表示学习

Jun, 2023

MolCAP：分子化学反应预训练及促进微调增强的分子表示学习

MolCAP: Molecular Chemical reActivity pretraining and prompted-finetuning enhanced molecular representation learning

Yu Wang, JingJie Zhang, Junru Jin, Leyi Wei

TL;DR我们提出了一种基于化学反应知识的 MolCAP，它是一个图形预训练变压器模型，用于推动分子表示学习，其结果表明在各种生物医学任务中优于传统预训练框架的比较方法，这表明了应用反应信息进行分子表示学习的前景。

Abstract

molecular representation learning (MRL) is a fundamental task for drug discovery. However, previous deep-learning (DL) methods focus excessively on learning robust inner-molecular representations by mask-dominated pretraining framework, neglecting abundant →

molecular representation learning drug discovery deep learning graph neural networks chemical reactivity

发现论文，激发创造

从化学反应知识中学习上下文分子表示

借助自监督学习的 REM0 框架，基于化学反应的上下文，对分子表示学习进行了预训练，提供了富含化学知识的有意义的上下文表示，用于支持各种下游分子任务，同时在活性分析基准中超过了指纹方法。

Feb, 2024

化学反应感知分子表示学习

该研究提出使用化学反应来辅助学习分子表示，强制规定化学方程中反应物嵌入和生成物嵌入之和相等，以保持嵌入空间的良好组织，并提高分子嵌入的泛化能力。实验结果表明，该方法在多个下游任务中获得了最先进的性能。

Sep, 2021

MolTailor: 通过文本提示定制化化学分子表征以执行特定任务

通过将语言模型视为代理和分子预训练模型视为知识库，我们提出了一种新颖的方法，称为 MolTailor，它可以通过理解任务的自然语言描述来强调分子表示中与任务相关的特征，从而提高预测性能。通过评估，我们证明了 MolTailor 相较于基线模型表现出更好的性能，验证了增强分子表示学习相关性的有效性，展示了语言模型引导优化的潜力，以更好地利用和释放现有强大的分子表示方法的能力。

Jan, 2024

使用反应预测预训练变形金刚进行分子属性预测

本文旨在使用反应数据进行预训练分子表示的过程，运用在 MoleculeNet 的 12 个分子属性预测任务上，结果显著地提高了预测模型的表现。

Jul, 2022

分子表示学习中揭示神经比例定律

从数据中心的观点出发，本文研究了分子表示学习的神经缩放行为，在数据量、数据质量和模型容量等四个关键维度上，证实了数据量和分子表示性能之间的一致性幂律关系，并通过详细分析，发现了提高学习效率的可能途径。

Sep, 2023

底物范围对比学习：重塑人类偏见以学习原子表示

学习分子表示是分子机器学习中一个关键步骤，它对于建模的成功具有重大影响，特别是在数据稀缺情况下。本研究引入了一种新颖的预训练策略，基底范围对比学习，通过学习与化学反应性相匹配的原子表示。该方法将已发布的基底范围表中的基底组织和收率视为其在化学反应性方面的相似性或差异性的度量。研究验证了预训练方法，并应用于产量预测、区域选择性预测和新基底的选择。该研究不仅提出了一种针对化学的神经网络预训练策略，学习与反应性相匹配的原子表示，而且还首次应用了基底范围设计中的人为偏见。

Feb, 2024

MolTC: 语言模型中的分子关系建模

该研究提出了一个基于 LLMs 的多模态框架 MolTC，以图像化信息为基础，实现了统一的分子间相互作用预测，并进行了包括 400 万分子对的多数据集实验，证明了该方法在基于 GNN 和 LLM 的基准测试中的优越性。

Feb, 2024

分子形态对比预训练用于可转移分子表示

本研究提出了 MoCoP 框架来学习分子图和细胞形态的多模态表示，并将其应用于 QSAR 模型以提高其性能。实验结果表明将细胞形态与分子图相融合能显著提高 QSAR 模型的性能。

Apr, 2023

从表示学习中暂停：分子性质预测

本研究对比了随机森林、MolBERT 和 GROVER 三种基于 Extended-Connectivity Fingerprint、SMILES 字符串和分子图的分子表示学习模型，评估了其在 MoleculeNet 数据集和类阿片类物质数据集预测方面的效果，并探讨了数据集分布、活性悬崖、模型评价、任务设定和化学空间泛化等方面对模型效果的影响，旨在为提高该领域人工智能技术贡献可能的思路。

Sep, 2022

基于图像和图结构的多模态学习用于预测分子性质的框架

MolIG 是一种多模态分子预训练框架，通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务，有效地将两种分子表示形式的优势融合在一起，这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息，并在分子拓展组和 ADMET 拓展组等基准组中，相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。

Nov, 2023