$F_β$ 绘图 -- 用于评估不平衡数据分类器的可视化工具
我们提出了一种方法,该方法可以为多类神经网络分类器提供训练和评估的一致性,使其与预期的特定应用性能标准相一致,并通过使用软集混淆矩阵和分段线性逼近的概念,将二元情况扩展到多类情况。
May, 2024
本文提出了一种基于约束学习的新框架, 可以通过在训练数据的子集上预测正 / 负例率来解决二分类器中的类不平衡问题,并避免了复杂的约束优化问题。该方法与模型无关且仅支出少量计算代价。在各种基准测试上的实验显示了与现有基准相比具有具有竞争性的性能。
Feb, 2018
在不平衡分类问题中,传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健,因为当少数类占比接近 0 时,这些度量标准下的贝叶斯分类器的真正阳性率(TPR)也趋近于 0。为了解决这个问题,我们提出了对 F-score 和 MCC 的稳健修正,即使在极度不平衡的情况下,TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为,并讨论了与 ROC 和精确率 - 召回率曲线的关联性,并提出了如何将它们与性能度量标准结合使用的建议。
Apr, 2024
该研究论文使用决策论和贝叶斯风险分析方法,提出了一种在二值分类、多标签分类和结构化输出预测等问题中,优化 F-measure 评价指标的方法,并提出了一个新的算法,它不仅计算效率高,而且在任何分布下都是贝叶斯最优的。
Oct, 2013
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾,并通过实证研究验证了所提算法的效率。
Jun, 2024
研究了一些非线性性能度量的理论属性,包括 F - 度量,Jaccard 指数等,将这些性能度量优化问题归约为具有未知成本的成本敏感分类问题,并提出了一种具有可证明保证的算法来获得近似最优分类器以解决 F - 度量优化问题。
May, 2015
本文研究了基于经验效用最大化和决策理论的方法学习最大化 F-measures 的分类器,分析了它们的理论基础与联系,并通过合成和真实数据集探究了它们的适用条件和优缺点,实验结果发现在具有准确模型的情况下,两种方法在大量的训练和测试集上是渐近等价的,但在实际应用中,基于经验效用最大化的方法对模型错误的鲁棒性更强,而决策理论方法更适用于处理稀有类和常见领域适应问题。
Jun, 2012
我们提供了一种基于二元矩阵因子分解模型的评估指标,通过一维向量表示来总结多类别分类的对比真阳性率和假阳性率,从而提供了多类别情况下的 ROC 曲线,并通过对这些分解向量的积分得出了对分类器性能的二元 AUC 等效总结。
Apr, 2024