Precision-Recall 空间中的不可达区域及其对实证评估的影响

ICMLJun, 2012

Precision-Recall 空间中的不可达区域及其对实证评估的影响

Unachievable Region in Precision-Recall Space and Its Effect on Empirical Evaluation

Kendrick Boyd, Vitor Santos Costa, Jesse Davis, David Page

TL;DR该论文精确刻画了不可达到的 PR 空间区域的大小，并讨论了它对机器学习中的经验评估方法的影响。

Abstract

Precision-recall (PR) curves and the areas under them are widely used to summarize machine learning results, especially for data sets exhibiting class skew. They are often used analogously to ROC curves and the area under ROC curves. It is known that PR curves vary as →

precision-recall curves machine learning class skew pr space empirical evaluation methodology

发现论文，激发创造

对生成模型评估中的精确度和召回率定义的重新审视

重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves，推广到任意度量，建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系，并提出新算法近似 PR curves，证明该算法在受控多模态数据集上优于原始方法。

May, 2019

带有可证收敛性的精确度 - 召回曲线下面积的随机优化

本文提出一种基于 AUPRC pipeline 的技术方法，采用 SOAP 采样算法来提高分类性能，并利用最新的随机组合优化技术进行优化。该方法在图像和图形数据集上的实验结果表明，在 AUPRC 方面，我们的方法优于先前的方法。这是首次尝试通过证明收敛性来优化 AUPRC。

Apr, 2021

用精确度 - 召回率曲线下面积进行聚类验证

本论文探讨了在聚类验证中，利用混淆矩阵和派生度量来衡量模型性能表现的可行性，并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法，通过实验验证，这一方法的可靠性与其在有监督学习中的表现相一致。

Apr, 2023

深入研究类别不平衡下的 AUROC 和 AUPRC

通过新颖的数学分析，本文挑战并证明按照概率的观点，AUPRC（精确率 - 召回率曲线下的面积）和 AUROC（接收者操作特征曲线下的面积）可以简洁地相互关联。同时，通过对超过 150 万篇论文的大规模语言模型分析，揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势，强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。

Jan, 2024

分类的精确率和召回率拒绝曲线

通过使用精确度和召回率评估曲线，我们提出了一种对分类器性能进行更准确评估的方法。使用基于学习矢量量化的原型分类器，我们验证了该方法在人工基准数据和数据不平衡的场景以及医学实际数据上的有效性。

Aug, 2023

生成模型的可靠评估中的概率精确度和召回率

评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此，最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法，将统计距离细分为忠实度和多样性。然而，我们对这些度量方法进行了深入分析，发现了 k 近邻算法的过于简化的假设和不良性质，造成了不可靠的评估，如对异常值的敏感性和对分布变化的不敏感性。因此，我们提出了一种新的基于概率方法的度量方法，P-precision 和 P-recall (PP&PR)，用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究，我们展示了相比于现有度量方法，我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。

Sep, 2023

可扩展的学习非可分解目标

本研究提出了一种统一的框架，使用简单的构建块限制，允许对各种基于排名的目标进行高度可扩展的优化，并在多个实际检索问题上展示了我们方法的优势，同时在性能和精度方面显著改进了基线。

Aug, 2016

如何评价无监督异常检测算法的质量？

本文提出了两种基于 Excess-Mass 和 Mass-Volume 曲线的无监督异常检测算法评估指标，并介绍了一种基于特征子采样和聚合的方法扩展到高维数据集。

Jul, 2016

统一并扩展用于评估生成模型的精确度和召回率指标

通过实验分析，统一了对生成模型的评估方法，研究了各种度量标准，特别关注了精确度 - 召回率曲线，并揭示了其存在的问题。

May, 2024

高维生成模型保真度与多样性的测量中，精度和召回率的不对称性

本文发现了在高维情况下，利用 k 近邻的默认方法评价生成模型的准确率和召回率存在的严重缺陷，并提出对称度更高的新指标来解决该问题。

Jun, 2023