Precision-Recall 空间中的不可达区域及其对实证评估的影响
重新定义 Sajjadi 等人提出的生成模型的 Precision-Recall curves,推广到任意度量,建立 PR curves 和似然比分类器的 type I 和 type II error rates 之间的联系,并提出新算法近似 PR curves,证明该算法在受控多模态数据集上优于原始方法。
May, 2019
本文提出一种基于 AUPRC pipeline 的技术方法,采用 SOAP 采样算法来提高分类性能,并利用最新的随机组合优化技术进行优化。该方法在图像和图形数据集上的实验结果表明,在 AUPRC 方面,我们的方法优于先前的方法。这是首次尝试通过证明收敛性来优化 AUPRC。
Apr, 2021
本论文探讨了在聚类验证中,利用混淆矩阵和派生度量来衡量模型性能表现的可行性,并提出利用 Precision-Recall 曲线及相关度量作为聚类验证指标以及在聚类失衡的情况下更为合适的方法,通过实验验证,这一方法的可靠性与其在有监督学习中的表现相一致。
Apr, 2023
通过新颖的数学分析,本文挑战并证明按照概率的观点,AUPRC(精确率 - 召回率曲线下的面积)和 AUROC(接收者操作特征曲线下的面积)可以简洁地相互关联。同时,通过对超过 150 万篇论文的大规模语言模型分析,揭示了 AUPRC 被广泛接受的先入为主观念的实证不足和误导趋势,强调了对度量标准性能的深入理解的重要性和机器学习社区中未经证实的假设的危险性。
Jan, 2024
通过使用精确度和召回率评估曲线,我们提出了一种对分类器性能进行更准确评估的方法。使用基于学习矢量量化的原型分类器,我们验证了该方法在人工基准数据和数据不平衡的场景以及医学实际数据上的有效性。
Aug, 2023
评估生成模型的忠实度和多样性是技术进步中的一个困难但重要的问题。因此,最近的论文引入了基于 k 近邻的精确率 - 召回率度量方法,将统计距离细分为忠实度和多样性。然而,我们对这些度量方法进行了深入分析,发现了 k 近邻算法的过于简化的假设和不良性质,造成了不可靠的评估,如对异常值的敏感性和对分布变化的不敏感性。因此,我们提出了一种新的基于概率方法的度量方法,P-precision 和 P-recall (PP&PR),用来解决这些问题。通过对玩具实验和最先进的生成模型进行广泛研究,我们展示了相比于现有度量方法,我们的 PP&PR 提供了更可靠的估计方法来比较忠实度和多样性。代码可在 https://github.com/kdst-team/Probablistic_precision_recall 获得。
Sep, 2023
本研究提出了一种统一的框架,使用简单的构建块限制,允许对各种基于排名的目标进行高度可扩展的优化,并在多个实际检索问题上展示了我们方法的优势,同时在性能和精度方面显著改进了基线。
Aug, 2016
本文提出了两种基于 Excess-Mass 和 Mass-Volume 曲线的无监督异常检测算法评估指标,并介绍了一种基于特征子采样和聚合的方法扩展到高维数据集。
Jul, 2016
本文发现了在高维情况下,利用 k 近邻的默认方法评价生成模型的准确率和召回率存在的严重缺陷,并提出对称度更高的新指标来解决该问题。
Jun, 2023