Sep, 2023

生成模型的可靠评估中的概率精确度和召回率

TL;DR评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此,最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法,将统计距离细分为忠实度和多样性。然而,我们对这些度量方法进行了深入分析,发现了 k 近邻算法的过于简化的假设和不良性质,造成了不可靠的评估,如对异常值的敏感性和对分布变化的不敏感性。因此,我们提出了一种新的基于概率方法的度量方法,P-precision 和 P-recall (PP&PR),用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究,我们展示了相比于现有度量方法,我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。