Sep, 2023

MatSciML:固体材料建模的广泛多任务基准

TL;DR提出了 MatSci ML,这是一个用于建模具有周期晶体结构的固态材料的机器学习(MatSci ML)方法的新型基准。使用机器学习方法研究固态材料是一个新兴领域,由于使用不同种类的数据集来开发机器学习模型,导致了碎片化的情况,使得比较不同方法的性能和泛化能力变得困难,从而阻碍了该领域的研究进展。MatSci ML 基准建立在开源数据集的基础上,包括 OpenCatalyst、OQMD、NOMAD、Carolina 材料数据库和 Materials Project 等大规模数据集,为模型训练和评估提供了多样化的材料系统和属性数据,包括模拟能量、原子力、材料能隙,以及通过空间群对结晶对称性进行分类的数据。MatSci ML 中的属性多样性使得实施和评估固态材料的多任务学习算法成为可能,而数据集的多样性则促进了跨多个数据集开发新的更广义的算法和方法。在多数据集学习环境中,MatSci ML 使研究人员能够结合来自多个数据集的观测结果,进行共同预测共同属性,如能量和力。使用 MatSci ML,我们评估了不同的图神经网络和等变点云网络在涵盖单一任务、多任务和多数据学习场景的几个基准任务上的性能。我们的开源代码可在指定的 https URL 上找到。