通过分位数实现的受限分类和排名
模型得分和不确定性对决策边界的选择有关,该研究提供了理论分析和经验证据来证明模型得分估计偏差依赖于不确定性和得分本身,通过动态规划和保序回归算法提出的方案在三个真实数据集上比传统的只使用模型得分方法,在高精确度边界下获得了 25%-40%的召回率提升,凸显了利用不确定性的好处。
Nov, 2023
本文提出用 Augmented Lagrangian Method 来解决在临床应用中,由于类别不平衡所引起的深度神经网络二分类器可持续错分少量样本的问题。作者认为,可以通过将分类问题看做约束优化问题并引入一种新的约束条件,即将假阳性率降至最低,同时保证真阳性率较高,从而提高模型精度。本文在医学影像的二分类和多分类以及其他数据集上进行了实验,证明了该方法能够有效提高模型准确率。
Feb, 2021
我们提出了一种方法,该方法可以为多类神经网络分类器提供训练和评估的一致性,使其与预期的特定应用性能标准相一致,并通过使用软集混淆矩阵和分段线性逼近的概念,将二元情况扩展到多类情况。
May, 2024
本研究考虑一种常见的受约束优化问题,即在固定阈值形式的不可分解评估指标和约束其他感兴趣的指标的情况下,对机器学习问题进行优化。通过隐函数定理,我们提出了一种表达阈值参数为模型参数函数的速率约束优化方法,并展示了如何使用标准梯度方法来解决所得到的优化问题。在基准数据集上的实验证明了我们提出的方法相对于现有的最先进方法在这些问题上的有效性。
Jul, 2021
本研究提出了一种统一的框架,使用简单的构建块限制,允许对各种基于排名的目标进行高度可扩展的优化,并在多个实际检索问题上展示了我们方法的优势,同时在性能和精度方面显著改进了基线。
Aug, 2016
在不平衡分类问题中,传统的性能度量标准如 F-score、Jaccard 相似系数或 Matthews 相关系数对于类别不平衡并不稳健,因为当少数类占比接近 0 时,这些度量标准下的贝叶斯分类器的真正阳性率(TPR)也趋近于 0。为了解决这个问题,我们提出了对 F-score 和 MCC 的稳健修正,即使在极度不平衡的情况下,TPR 也得到了保证。我们通过模拟和信用违约数据集的实验来展示各种性能度量标准的行为,并讨论了与 ROC 和精确率 - 召回率曲线的关联性,并提出了如何将它们与性能度量标准结合使用的建议。
Apr, 2024
提出了两个关键特性:所谓的 Karmic 属性和阈值准凸性属性,表明 Bayes 最优分类器是正类条件概率的阈值函数,并借此结果通过新颖的阈值估计器提供了一个计算实际的插件分类器,并进一步提供了性能复杂度统计分析。
Jun, 2018
本篇论文提出通过使用数据集约束、使用斜面惩罚精确量化成本,并提出一种有效的算法来约束多个数据集上的多个目标,以处理训练集错误最小化目标外的其他真实目标。实验结果表明我们的方法的有效性。
Jun, 2016
处理不平衡分类数据时,重新权衡损失函数可以在风险度量内平衡正负类的真实率。然而,现有结果未能充分解决不平衡分类框架中的一个主要挑战,即相对于整个样本空间,一个类别的尺寸微不足道,并且需要将风险函数按趋近于零的概率重新缩放。为了解决这一差距,我们在罕见类概率接近零的情况下提出了两个新的贡献:(1) 用于约束平衡实验风险最小化的非渐近快速概率界限,以及 (2) 平衡最近邻估计的一致上界。我们的发现更清楚地了解了类别加权在实际情况下的好处,并为该领域的进一步研究开辟了新的途径。
Oct, 2023