优化不可分解性能度量:两个类别的故事
本文研究了基于经验效用最大化和决策理论的方法学习最大化F-measures的分类器,分析了它们的理论基础与联系,并通过合成和真实数据集探究了它们的适用条件和优缺点,实验结果发现在具有准确模型的情况下,两种方法在大量的训练和测试集上是渐近等价的,但在实际应用中,基于经验效用最大化的方法对模型错误的鲁棒性更强,而决策理论方法更适用于处理稀有类和常见领域适应问题。
Jun, 2012
该研究论文使用决策论和贝叶斯风险分析方法,提出了一种在二值分类、多标签分类和结构化输出预测等问题中,优化 F-measure 评价指标的方法,并提出了一个新的算法,它不仅计算效率高,而且在任何分布下都是贝叶斯最优的。
Oct, 2013
研究了一些非线性性能度量的理论属性,包括F-度量,Jaccard指数等,将这些性能度量优化问题归约为具有未知成本的成本敏感分类问题,并提出了一种具有可证明保证的算法来获得近似最优分类器以解决F-度量优化问题。
May, 2015
本研究提出了用于优化量化特定的性能参数的首批在线随机算法,其对于多变量优化的理论具有最优的收敛性,并通过实验验证,相对于现有的算法,能够更好地对性能参数进行优化。
May, 2016
提出了两个关键特性:所谓的Karmic属性和阈值准凸性属性,表明Bayes最优分类器是正类条件概率的阈值函数,并借此结果通过新颖的阈值估计器提供了一个计算实际的插件分类器,并进一步提供了性能复杂度统计分析。
Jun, 2018
该研究提出了一个用于直接优化排名度量的高效框架——CatBoost,并介绍了两种重要的技术:随机平滑和基于部分积分的新梯度估计,证明了经典平滑方法可能会引入偏差,并提出了一个通用解决方案进行去偏差,该算法保证全局收敛性并在多个学习排名数据集上优于现有方法。
Mar, 2020
本文探讨设计针对F-Measure的凸罚函数问题,提出了F-Measure的凸罚函数方法,将多标签F-Measure学习问题分解为$s^2+1$个二进制分类概率估计问题,并提供了差错传递边界的定量证明,与Dembczynski等人的算法有关,并进行了实验证实了论文理论结果。
Sep, 2020
考虑监督分类问题和非可分解评估指标,研究基于分层均匀采样的coresets在实证性能与理论保证方面表现优秀,特别针对F1得分和Matthews相关系数这两个广泛使用且难以优化的非可分解目标函数,证明均匀coresets达到了coreset大小的下界,并且在实验表现上与“更聪明”的coreset构建策略相当。
Dec, 2023
从含有噪声标签的数据中学习良好分类器一直备受关注,我们的研究旨在设计算法,以应对多类非可分解性能度量的噪声标签,并通过实验证实了算法在处理标签噪声方面的有效性。
Feb, 2024
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了O(ln n/n)的遗憾,并通过实证研究验证了所提算法的效率。
Jun, 2024