转移分子基础模型以预测聚合物性质
本文旨在使用反应数据进行预训练分子表示的过程,运用在 MoleculeNet 的 12 个分子属性预测任务上,结果显著地提高了预测模型的表现。
Jul, 2022
这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估,结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力,同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。
Oct, 2020
使用变压器模型进行分子属性预测的当前研究进行了分析,强调了尚未涵盖的领域,并提出进行标准化数据划分和稳健统计分析的挑战。
Apr, 2024
该研究提出了 MMPolymer,一种新颖的多模态多任务预训练框架,结合了聚合物的 1D 顺序信息和 3D 结构信息,以增强下游聚合物性质预测任务。实验证明,MMPolymer 在各种聚合物性质预测任务中实现了最先进的性能。
Jun, 2024
利用物理模型和合成数据进行预训练的方法,以减少实验数据稀缺性对大型语言模型(LLM)微调的影响,并在学习聚合物可燃性指标方面得到准确的微调结果。
Jul, 2024
通过使用小样本数据集进行基于机器学习方法的分子属性预测,研究发现使用消息传递神经网络(PaiNN)以及 SOAP 分子描述符与梯度提升回归树方法相结合的简单分子描述符能够获得最佳预测结果。进一步提出了一种使用大样本数据进行预训练,并在原始数据集进行微调的迁移学习策略,以获取更准确的模型。该策略在 Harvard Oxford Photovoltaics 数据集(HOPV,HOMO-LUMO 间隙)获得了出色结果,在 Freesolv 数据集(溶剂化能)上由于复杂的学习任务和用于预训练和微调标签的不同方法而不成功。研究还发现,预训练数据集的大小与最终训练结果并非单调改善的关系,更少的预训练数据点可能导致预训练模型的偏置更高,从而在微调后获得更高的准确性。
Apr, 2024
本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2,并经过预训练过程的优化,发现在分子预测任务上优于现有的最先进架构。
Sep, 2022
本文采用 Transformer 结构,具体为 BERT,来学习灵活高质量的分子表示,从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性,最终提高了我们模型 MolBert 在基准数据集上的性能,显示其在药物发现方面具有良好的应用前景。
Nov, 2020
利用自然语言与化学的类比,本文探索了利用 Transformers 处理药物发现过程中的重要障碍,如后合成规划和化学空间探索,并展示了大型语言模型在化学领域解决通用任务的潜力。
Oct, 2023