转移分子基础模型以预测聚合物性质

Oct, 2023

转移分子基础模型以预测聚合物性质

Transferring a molecular foundation model for polymer property predictions

Pei Zhang, Logan Kearney, Debsindhu Bhowmik, Zachary Fox, Amit K. Naskar...

TL;DR使用在小分子上预训练并在聚合物属性上微调的 Transformer 模型，可以达到与在扩增聚合物数据集训练的模型相当的准确性，对于一系列基准预测任务来说。

Abstract

transformer-based large language models have remarkable potential to accelerate design optimization for applications such as drug development and

transformer-based large language models drug development materials discovery self-supervised pretraining data scarcity

发现论文，激发创造

使用反应预测预训练变形金刚进行分子属性预测

本文旨在使用反应数据进行预训练分子表示的过程，运用在 MoleculeNet 的 12 个分子属性预测任务上，结果显著地提高了预测模型的表现。

Jul, 2022

ChemBERTa: 面向分子性质预测的大规模自监督预训练

这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估，结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力，同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。

Oct, 2020

分子性质预测的 Transformer 方法：过去五年的经验教训

使用变压器模型进行分子属性预测的当前研究进行了分析，强调了尚未涵盖的领域，并提出进行标准化数据划分和稳健统计分析的挑战。

Apr, 2024

基于多模态多任务预训练的预测聚合物性质

该研究提出了 MMPolymer，一种新颖的多模态多任务预训练框架，结合了聚合物的 1D 顺序信息和 3D 结构信息，以增强下游聚合物性质预测任务。实验证明，MMPolymer 在各种聚合物性质预测任务中实现了最先进的性能。

Jun, 2024

大型语言模型、基于物理的建模、实验测量：稀缺数据学习聚合物性质的三位一体

利用物理模型和合成数据进行预训练的方法，以减少实验数据稀缺性对大型语言模型（LLM）微调的影响，并在学习聚合物可燃性指标方面得到准确的微调结果。

Jul, 2024

从小数据集进行分子属性预测的迁移学习

通过使用小样本数据集进行基于机器学习方法的分子属性预测，研究发现使用消息传递神经网络（PaiNN）以及 SOAP 分子描述符与梯度提升回归树方法相结合的简单分子描述符能够获得最佳预测结果。进一步提出了一种使用大样本数据进行预训练，并在原始数据集进行微调的迁移学习策略，以获取更准确的模型。该策略在 Harvard Oxford Photovoltaics 数据集（HOPV，HOMO-LUMO 间隙）获得了出色结果，在 Freesolv 数据集（溶剂化能）上由于复杂的学习任务和用于预训练和微调标签的不同方法而不成功。研究还发现，预训练数据集的大小与最终训练结果并非单调改善的关系，更少的预训练数据点可能导致预训练模型的偏置更高，从而在微调后获得更高的准确性。

Apr, 2024

ChemBERTa-2：面向化学基础模型的发展

本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2，并经过预训练过程的优化，发现在分子预测任务上优于现有的最先进架构。

Sep, 2022

利用语言模型和领域相关辅助任务进行分子表示学习

本文采用 Transformer 结构，具体为 BERT，来学习灵活高质量的分子表示，从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性，最终提高了我们模型 MolBert 在基准数据集上的性能，显示其在药物发现方面具有良好的应用前景。

Nov, 2020

化学与药物发现中的 Transformer 和大型语言模型

利用自然语言与化学的类比，本文探索了利用 Transformers 处理药物发现过程中的重要障碍，如后合成规划和化学空间探索，并展示了大型语言模型在化学领域解决通用任务的潜力。

Oct, 2023

通过单一分子基础模型双向生成结构和性质

提出一种双向分子基础模型，通过一个模型进行分子结构和性质推断，在多模态和单模态任务中取得了最先进的性能和可解释的注意力图。

Nov, 2022