Oct, 2023

结构和构象多样性在机器学习势能中的作用

TL;DR在机器学习的原子间势(MLIPs)领域中,研究数据偏差、特别是构象和结构多样性与模型泛化之间的复杂关系对于改善量子力学(QM)数据生成的质量至关重要。我们通过两个不同的实验来研究这些动态:一个是固定预算的实验,其中数据集大小保持恒定;另一个是固定分子集的实验,它着重于固定结构差异而变化的构象多样性。我们的结果揭示了泛化度量中的微妙模式。值得注意的是,要实现结构和构象的最佳泛化,需要在结构和构象多样性之间谨慎平衡,但现有的QM数据集不能满足这种权衡。此外,我们的结果突显了MLIP模型在超出其训练分布的泛化能力的局限性,强调了在模型部署期间定义适用领域的重要性。这些发现为QM数据生成工作提供了宝贵的见解和指导。