分子预训练模型系统调查

Oct, 2022

A Systematic Survey of Molecular Pre-trained Models

Jun Xia, Yanqiao Zhu, Yuanqi Du, Stan Z.Li

TL;DR本篇论文总结了分子预训练模型领域的近期进展，并从分子描述符、编码器结构、预训练策略和应用等几个关键角度进行了系统性分析，以期为机器学习和科学界提供有用的资源。

Abstract

deep learning has achieved remarkable success in learning representations for molecules, which is crucial for various biochemical applications

deep learning molecules molecular pre-trained models pre-training strategies applications

发现论文，激发创造

分析学习的分子表征进行性质预测

在分子属性预测的算法解决方案中，神经机器技术的进步导致了一系列算法解决方案，其中神经网络应用于计算分子指纹或专家制作的描述符以及构造学习分子表示的图卷积神经网络最为有效，这项研究进行了广泛的基准测试，并提出了优于现有模型的图卷积模型的实证发现。

Apr, 2019

双视角分子预训练

该研究提出了一种双视图分子预训练算法（简称 DMP），旨在将分子的图表示和 SMILES 序列表示相结合进行预训练，经过在多种分子特性预测任务和合成规划任务上的测试，DMP 都取得了最先进的表现。

Jun, 2021

深度学习在分子设计中的应用 - 现状综述

文献的主要内容是深度生成建模技术被应用于分子生成和优化，包括使用递归神经网络、自动编码器、生成对抗网络和强化学习等四种技术，并探讨了这些技术的数学基础和优缺点，内容涉及到分子表示和设计中的多个方面。

Mar, 2019

量子化学中的神经消息传递

本文介绍了一种基于神经网络模型的消息传递神经网络 (Message Passing Neural Networks, MPNN)，并探索了 MPNNs 的衍生变体。在化学性质预测基准测试中，使用 MPNNs 获得了最先进的结果，表明将来的研究应该集中在具有更大分子或更精确地基础事实标签的数据集上。

Apr, 2017

从小数据集进行分子属性预测的迁移学习

通过使用小样本数据集进行基于机器学习方法的分子属性预测，研究发现使用消息传递神经网络（PaiNN）以及 SOAP 分子描述符与梯度提升回归树方法相结合的简单分子描述符能够获得最佳预测结果。进一步提出了一种使用大样本数据进行预训练，并在原始数据集进行微调的迁移学习策略，以获取更准确的模型。该策略在 Harvard Oxford Photovoltaics 数据集（HOPV，HOMO-LUMO 间隙）获得了出色结果，在 Freesolv 数据集（溶剂化能）上由于复杂的学习任务和用于预训练和微调标签的不同方法而不成功。研究还发现，预训练数据集的大小与最终训练结果并非单调改善的关系，更少的预训练数据点可能导致预训练模型的偏置更高，从而在微调后获得更高的准确性。

Apr, 2024

用于高通量聚合物筛选的信息传递神经网络

研究表明，基于分子结构的图神经网络架构是目前预测分子性质最好的机器学习方法之一，并且可以监督大规模重复评估化合物库。使用新的有机光伏应用候选分子数据库进行的实验证明，即使不要求最优的立体结构输入，利用信息传递神经网络可以获得与现有基准数据集上最先进方法相媲美的准确性。

Jul, 2018

分子系统准确高效的几何深度学习的通用框架

基于几何深度学习和图神经网络的 PAMNet 是一个通用框架，通过引入物理信息偏置来模拟三维分子的局部和非局部相互作用，具有高效且准确的学习分子表示能力，在小分子性质、RNA 3D 结构和蛋白质 - 配体结合亲和性等学习任务中表现优异，适用于广泛的分子科学应用。

Nov, 2023

基于量子力学数据的原子水平预训练对图神经网络分子性质模型的分析

通过原子级量子力学预训练数据，本研究探讨了如何改善深度学习在定量构效关系模型中的性能与广义性，以解决新颖化合物的现实情景下训练与测试数据的分布不一致问题，并显示了在公共数据集 TDC 上，原子级量子力学预训练可以改善性能，使特征激活更加符合高斯分布，从而得到更稳健的表示。据我们所知，这是首次分析隐藏状态分子表示以比较分子级与原子级预训练对量子力学数据的影响。

May, 2024

大规模语言模型用于分子预测任务的基准测试

LLMs 在分子预测任务中的表现相对较弱，而与机器学习模型合作使用时，LLMs 有潜力提升模型性能。

Mar, 2024

化学 LLM 是否能从信息传递中受益

预训练语言模型和信息传递神经网络在处理分子文本和分子科学领域展示了显著的能力。本文提出了两种策略来评估信息整合是否能增强性能：对比学习和融合，经实证分析表明，当应用于较小的分子图时，整合方法相比基准模型表现出优越性能，而当应用于大规模图时，这些整合方法并未带来性能改进。

May, 2024