May, 2024

通过最优传输对一个模型在未知领域的测试性能进行评估

TL;DR利用仅在测试时可用的信息(如模型参数、训练数据或其统计信息以及未标记的测试数据),我们提出了一种基于最优输运的测度,与机器学习模型在未知领域的性能高度相关,并且高效可计算。通过对常用基准数据集及其损坏数据进行广泛的经验评估,证明了我们的测度在估计模型在各种实际应用中的性能方面的效用,包括选择源数据和架构以获得最佳未知领域数据性能的问题,以及在测试时预测已部署模型在未知领域的性能的问题。我们的经验结果表明,我们的测度综合使用源领域和未知领域的信息,与模型的性能高度相关,在相关性方面显著优于仅使用未知领域数据计算的流行预测熵测度。