生成模型的可靠评估中的概率精确度和召回率

Sep, 2023

生成模型的可靠评估中的概率精确度和召回率

Probabilistic Precision and Recall Towards Reliable Evaluation of Generative Models

Dogyun Park, Suhyun Kim

TL;DR评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此，最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法，将统计距离细分为忠实度和多样性。然而，我们对这些度量方法进行了深入分析，发现了 k 近邻算法的过于简化的假设和不良性质，造成了不可靠的评估，如对异常值的敏感性和对分布变化的不敏感性。因此，我们提出了一种新的基于概率方法的度量方法，P-precision 和 P-recall (PP&PR)，用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究，我们展示了相比于现有度量方法，我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。

Abstract

Assessing the fidelity and diversity of the generative model is a difficult but important issue for technological advancement. So, recent

fidelity diversity generative model k-nearest neighbor probabilistic approach

发现论文，激发创造

高维生成模型保真度与多样性的测量中，精度和召回率的不对称性

本文发现了在高维情况下，利用 k 近邻的默认方法评价生成模型的准确率和召回率存在的严重缺陷，并提出对称度更高的新指标来解决该问题。

Jun, 2023

对生成模型评估中的精确度和召回率定义的重新审视

重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves，推广到任意度量，建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系，并提出新算法近似 PR curves，证明该算法在受控多模态数据集上优于原始方法。

May, 2019

统一并扩展用于评估生成模型的精确度和召回率指标

通过实验分析，统一了对生成模型的评估方法，研究了各种度量标准，特别关注了精确度 - 召回率曲线，并揭示了其存在的问题。

May, 2024

GAN 和标准化流的生成建模的精准 - 召回分歧优化

我们提出了一种新颖的训练方法，通过显式优化用户定义的精度和召回之间的权衡，通过对 PR-divergences 中唯一的 f - 散度进行最小化来实现指定的精度 - 召回权衡，从而改善了现有先进模型的性能，如 BigGAN。

May, 2023

通过准确率和召回率评估生成模型

通过提出新的分布的精度和召回率的概念，针对生成模型提出了一种新的评估方法，能够分离出分布的两个维度，从而区分生成样本的质量和目标分布的覆盖范围，是一种有效的评价生成模型的算法。

May, 2018

TopP&R：评估生成模型的保真度和多样性的鲁棒支持估计方法

提出了一种关于生成模型的可靠评估方法，称之为 Topological Precision and Recall（TopP&R），通过引入拓扑和统计方面的处理来进行严谨的支持估计，这不仅使得 TopP&R 更适合有噪音的特征，而且提供了统计一致性。

Jun, 2023

生成模型的可靠保真度和多样性度量

本研究旨在寻找图像生成任务的指标评价方法，证明最近的精度和召回率指标并不可靠，并提出一种新的基于密度和覆盖率的评价指标，这些指标可以提供比现有指标更可靠的信息信号。

Feb, 2020

使用模糊精确率和召回率评估分类系统对软标签的准确性

分类系统通常通过最小化系统输出和参考标签之间的交叉熵进行训练，Kullback-Leibler 散度是衡量系统与数据接近程度的自然选择。我们提出了一种新颖的方法，可以在不量化数据的情况下计算精度、召回率和 F 值，这些指标扩展了现有的度量标准，并且在与二进制标签一起使用时定义是一致的。

Sep, 2023

生成模型评估和审计的样本级度量：合成数据的准确性如何？

本文引入了一个三维评估指标（α- 精准度，β- 召回率，真实性），以在领域无关的情况下表征任何生成模型的保真度、多样性和泛化性能，通过样本级二元分类估计三个指标组件，激发了模型审计的新用例。

Feb, 2021

评估生成模型的精准度和召回率指标的改进

本研究提出了一种评估度量标准，以明确，非参数化表示真实和生成数据流形，可以分别和可靠地测量图像生成任务中样本的质量和覆盖范围，并且展示了该度量标准在 StyleGAN 和 BigGAN 方面的有效性。同时，我们分析了 StyleGAN 的多个设计变体以更好地了解模型架构，训练方法与样本分布属性之间的关系，并识别出新的改进方法。最后，我们将度量标准扩展到个体样本的感知质量估计，并使用它来研究潜空间插值。

Apr, 2019