在材料信息学中建立深度信息最大化作为一种有效的自监督学习方法

Jun, 2024

在材料信息学中建立深度信息最大化作为一种有效的自监督学习方法

Establishing Deep InfoMax as an effective self-supervised learning methodology in materials informatics

Michael Moran, Vladimir V. Gusev, Michael W. Gaultois, Dmytro Antypov, Matthew J. Rosseinsky

TL;DR在材料信息学中，材料属性标签的稀缺性是一个关键挑战，然而相对而言，没有属性标签的材料数据却非常丰富。通过在任何晶体结构信息文件（CIF）中仅利用“内在信息”进行无监督任务的预训练模型，有潜力利用大量没有属性标签的晶体数据来提高小数据集上的属性预测结果。我们运用Deep InfoMax作为材料信息学的自监督机器学习框架，明确最大化晶体的点集（或图形）表示和适用于下游学习的向量表示之间的互信息。这允许在大型材料数据集上无需属性标签进行监督模型的预训练，也不需要模型从表示向量中重构晶体。我们通过在Site-Net架构上实施Deep InfoMax预训练，研究了在具有少量数据（<10^3）的情况下改善下游属性预测模型性能的好处，该情况与实验测量的材料属性数据库相关。通过属性标签屏蔽方法，在较大的受监督数据集上进行自监督学习，然后在少量标签的子集上训练监督模型，我们将Deep InfoMax预训练与分布偏移的影响分离开来。我们在表示学习和迁移学习的上下文中展示了性能改善，在能带间隙和形成能量预测任务中。在控制环境中建立了Deep InfoMax预训练的有效性后，我们的发现为将该方法扩展到解决材料信息学中的实际挑战提供了基础。

Abstract

The scarcity of property labels remains a key challenge in materials informatics, whereas materials data without property labels are abund