ChemBERTa-2：面向化学基础模型的发展

Sep, 2022

ChemBERTa-2：面向化学基础模型的发展

ChemBERTa-2: Towards Chemical Foundation Models

Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar

TL;DR本文探讨使用 SMILES 语言构建化学基础模型 ChemBERTa-2，并经过预训练过程的优化，发现在分子预测任务上优于现有的最先进架构。

Abstract

Large pretrained models such as GPT-3 have had tremendous impact on modern natural language processing by leveraging self-supervised learning to learn salient representations that can be used to readily finetune

pretrained models self-supervised learning chemberta-2 smiles molecular machine learning

发现论文，激发创造

ChemBERTa: 面向分子性质预测的大规模自监督预训练

这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估，结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力，同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。

Oct, 2020

利用语言模型和领域相关辅助任务进行分子表示学习

本文采用 Transformer 结构，具体为 BERT，来学习灵活高质量的分子表示，从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性，最终提高了我们模型 MolBert 在基准数据集上的性能，显示其在药物发现方面具有良好的应用前景。

Nov, 2020

跨不同化学领域的迁移学习：利用在小分子和化学反应数据上预训练的深度学习模型进行有机材料的虚拟筛选

使用机器学习预测有机材料属性是一种高效的虚拟筛选方法，本研究证明药物类小分子和化学反应数据库可用于预训练 BERT 模型以进行有机材料的虚拟筛选，并展示了其在机器学习模型训练中的优越性能，进一步加强了跨不同化学领域的迁移学习在有机材料的虚拟筛选中的可行性。

Nov, 2023

GPT-MolBERTa: 用于分子性质预测的 GPT 分子特征语言模型

利用自然语言处理模型 GPT-MolBERTa，通过分析分子的详细文本描述来预测其性质，并展示模型的可解释性。

Sep, 2023

LlaSMol：通过大规模、综合、高质量的指导调整数据集推进化学领域的大型语言模型

我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色，特别是 Mistral 模型，同时，我们还分析了可训练参数的影响，为未来的研究提供了一些见解。

Feb, 2024

使用反应预测预训练变形金刚进行分子属性预测

本文旨在使用反应数据进行预训练分子表示的过程，运用在 MoleculeNet 的 12 个分子属性预测任务上，结果显著地提高了预测模型的表现。

Jul, 2022

SMILES Transformer: 面向低数据药物发现的预训练分子指纹

本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法，该方法在虚拟筛选和其他药物发现任务中表现出优越性，在小数据集和复杂分析环境中表现良好。

Nov, 2019

Uni-Mol2：规模化探索分子预训练模型

通过使用两个通道的变压器模型并对模型大小、数据集大小和计算资源进行特性化研究，成功构建了迄今为止最大的 1.1 亿参数的分子预训练模型 Uni-Mol2，并在下游任务中展现了一致性的性能改进和超越现有方法。

Jun, 2024

分子与自然语言的翻译

$\textbf {MolT5}$ 是一个自监督学习框架，可用于对大量未标记的自然语言文本和分子字符串进行预训练，允许新的、有用的和具有挑战性的类比于传统的视觉语言任务。

Apr, 2022

GPT 模型在化学方面能做什么？八项任务的综合评估

本文针对大语言模型在化学领域能力的未知，建立起一个包含 8 个化学实践任务的全面基准，运用 GPT-4、GPT-3.5 和 Davinci-003 三种 GPT 模型以零样本和少样本的情境下进行测试，发现 GPT-4 相较于其他两种模型表现更佳，而 GPT 模型在需要精确理解分子 SMILES 表示的任务中较为欠缺，而在文本相关的说明任务方面表现出较强的能力。

May, 2023