Oct, 2023

面向大规模多任务数据集的分子学习基础模型

TL;DR我们提供了七个新颖数据集,覆盖了超过 1 亿个分子和 3000 个任务,用于支持分子学习的基础模型的开发,并介绍了一个简化构建和训练分子机器学习模型的图形机器学习库。通过在大量的量子数据上进行训练,我们实证观察到在低资源的生物学数据集上的表现得到改善,这表明在基础模型上进行多任务和多层训练,并对资源受限的下游任务进行微调可能具有潜力。