这项工作通过 ChemBERTa 模型对分子性质预测任务中的 transformers 进行了系统评估,结果表明 transformers 在分子表示学习和性质预测方面具有很大的发展潜力,同时我们为大规模自监督预训练提供了一份 77M SMILES 的数据集。
Oct, 2020
本文采用 Transformer 结构,具体为 BERT,来学习灵活高质量的分子表示,从预训练使用不同组合的自监督任务的影响、到提高所学表示的领域相关性,最终提高了我们模型 MolBert 在基准数据集上的性能,显示其在药物发现方面具有良好的应用前景。
Nov, 2020
使用机器学习预测有机材料属性是一种高效的虚拟筛选方法,本研究证明药物类小分子和化学反应数据库可用于预训练 BERT 模型以进行有机材料的虚拟筛选,并展示了其在机器学习模型训练中的优越性能,进一步加强了跨不同化学领域的迁移学习在有机材料的虚拟筛选中的可行性。
Nov, 2023
利用自然语言处理模型 GPT-MolBERTa,通过分析分子的详细文本描述来预测其性质,并展示模型的可解释性。
Sep, 2023
我们研究了基于 SMolInstruct 数据集进行 fine-tune 的大型语言模型在化学任务上表现出色,特别是 Mistral 模型,同时,我们还分析了可训练参数的影响,为未来的研究提供了一些见解。
Feb, 2024
本文旨在使用反应数据进行预训练分子表示的过程,运用在 MoleculeNet 的 12 个分子属性预测任务上,结果显著地提高了预测模型的表现。
Jul, 2022
本文介绍了一种基于 SMILES Transformer 的分子指纹预测方法,该方法在虚拟筛选和其他药物发现任务中表现出优越性,在小数据集和复杂分析环境中表现良好。
Nov, 2019
通过使用两个通道的变压器模型并对模型大小、数据集大小和计算资源进行特性化研究,成功构建了迄今为止最大的 1.1 亿参数的分子预训练模型 Uni-Mol2,并在下游任务中展现了一致性的性能改进和超越现有方法。
Jun, 2024
$\textbf {MolT5}$ 是一个自监督学习框架,可用于对大量未标记的自然语言文本和分子字符串进行预训练,允许新的、有用的和具有挑战性的类比于传统的视觉语言任务。
Apr, 2022
本文针对大语言模型在化学领域能力的未知,建立起一个包含 8 个化学实践任务的全面基准,运用 GPT-4、GPT-3.5 和 Davinci-003 三种 GPT 模型以零样本和少样本的情境下进行测试,发现 GPT-4 相较于其他两种模型表现更佳,而 GPT 模型在需要精确理解分子 SMILES 表示的任务中较为欠缺,而在文本相关的说明任务方面表现出较强的能力。
May, 2023