可调的分子表示统一预训练策略
本文基于统一的 2D 和 3D 预训练,提出了一种新的基于图神经网络的表示学习方法,将原子坐标和原子间距编码,并通过图神经网络将其与原子表示融合。在 11 个下游分子属性预测任务中进行评估,其在 10 项任务中都获得了最先进的结果,2D 任务平均改进了 8.3%,同时在 2 个三维构象生成任务中也取得了显着的改进。
Jul, 2022
本文采用 Transformer 结构,具体为 BERT,来学习灵活高质量的分子表示,从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性,最终提高了我们模型 MolBert 在基准数据集上的性能,显示其在药物发现方面具有良好的应用前景。
Nov, 2020
该研究提出了一种基于对比学习构建多语言分子嵌入的预训练方法 MM-Deacon,通过对 SMILES 和 IUPAC 语言的大规模分子进行预训练,在分子性质预测、零样本跨语言检索和药物相互作用预测任务中取得了鲁棒性良好的结果。
Sep, 2021
人工智能通过编码药物分子来预测药物特性,帮助快速筛选候选药物。利用不同来源的分子表示,如 SMILES 和分子图,可以提供互补信息进行分子编码。我们提出了一种多粒度融合方法 MolFusion,该方法利用分子级和原子级编码实现不同分子表示之间的相互对齐,实验结果表明 MolFusion 有效地利用了多模态的互补信息,在不同分类和回归任务中显著提高了性能。
Jun, 2024
本研究提出了一个通用的语言表示学习方法 MiSAD,通过利用大型未标记语料库中提取的有意义的 n-gram,实现对不同层次语言单位或具有相当不同长度的文本的嵌入形式,从而使手头的多个语言层次的信息能够更好地统一处理,并且在 GLUE 基准和问答数据集上显著提高了下游任务的性能以及在不同语言层次上实现了最高准确率。
May, 2021
MolIG 是一种多模态分子预训练框架,通过图像和图结构创新地利用分子图和分子图像之间的一致性和相关性执行自监督任务,有效地将两种分子表示形式的优势融合在一起,这种整体方法能够捕捉关键的分子结构特征和高层次的语义信息,并在分子拓展组和 ADMET 拓展组等基准组中,相对于先进的基线模型展现出在分子性质预测等拓展任务中性能的提升。
Nov, 2023
通过原子级量子力学预训练数据,本研究探讨了如何改善深度学习在定量构效关系模型中的性能与广义性,以解决新颖化合物的现实情景下训练与测试数据的分布不一致问题,并显示了在公共数据集 TDC 上,原子级量子力学预训练可以改善性能,使特征激活更加符合高斯分布,从而得到更稳健的表示。据我们所知,这是首次分析隐藏状态分子表示以比较分子级与原子级预训练对量子力学数据的影响。
May, 2024
通过将语言模型视为代理和分子预训练模型视为知识库,我们提出了一种新颖的方法,称为 MolTailor,它可以通过理解任务的自然语言描述来强调分子表示中与任务相关的特征,从而提高预测性能。通过评估,我们证明了 MolTailor 相较于基线模型表现出更好的性能,验证了增强分子表示学习相关性的有效性,展示了语言模型引导优化的潜力,以更好地利用和释放现有强大的分子表示方法的能力。
Jan, 2024
介绍了基于量子力学的分子表示层次结构,使用多体展开式控制目标相似性,并使用高阶贡献提高预测准确性和速度的 BAML 模型在数千种小有机分子的性质计算中表现出了前所未有的预测准确性和速度。
Aug, 2016
学习分子表示是分子机器学习中一个关键步骤,它对于建模的成功具有重大影响,特别是在数据稀缺情况下。本研究引入了一种新颖的预训练策略,基底范围对比学习,通过学习与化学反应性相匹配的原子表示。该方法将已发布的基底范围表中的基底组织和收率视为其在化学反应性方面的相似性或差异性的度量。研究验证了预训练方法,并应用于产量预测、区域选择性预测和新基底的选择。该研究不仅提出了一种针对化学的神经网络预训练策略,学习与反应性相匹配的原子表示,而且还首次应用了基底范围设计中的人为偏见。
Feb, 2024