May, 2024

使用核密度估计确定机器学习模型的领域:在材料性能预测中的应用

TL;DR我们发展了一种新方法来评估模型的领域适用性,并展示了我们的方法在多个模型类型和材料性质数据集中提供准确和有意义的领域划分。我们的方法通过使用核密度估计计算特征空间中测试数据点与训练数据点的距离,并展示该距离为确定领域提供了有效的工具。我们展示了根据已有化学知识视为无关的化学组合在我们的测量中表现出显著的差异性。我们还展示了高度差异测量与模型性能不佳(即残差大小)和模型不确定性估计不可靠(即不可靠的不确定性估计)相关。我们提供了自动化工具,以帮助研究人员建立可接受的差异阈值,以确定他们自己的机器学习模型的新预测是领域内还是领域外。