非可分解性能度量上的多类别带噪标签学习
本文提出一种自适应线性化技术,实现了基于 TPR 和 TNR 的点随机更新,通过提出 SPADE 和 STAMP 方法,可以应对实际中出现的数据标签不平衡及其他特殊要求,并获得了显着的速度优势和精准度,同时确保了收敛性。
May, 2015
本文提出了一种针对非可分离损失函数的在线学习框架,通过引入新型算法设计和分析,该模型具有高效的在线学习算法,具有亚线性遗憾和在线转换界限;进一步开发了可扩展的随机梯度下降求解器,经过实验在真实数据集上证明,该方法比近期提出的切割面算法快得多。
Oct, 2014
研究了一些非线性性能度量的理论属性,包括 F - 度量,Jaccard 指数等,将这些性能度量优化问题归约为具有未知成本的成本敏感分类问题,并提出了一种具有可证明保证的算法来获得近似最优分类器以解决 F - 度量优化问题。
May, 2015
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
May, 2024
本文证明了大多数知名损失函数的经验风险因子可分为线性项,聚合所有标签和不涉及标签的项,并且可以进一步表示为损失的和。这适用于任何 RKHS 中的非光滑、非凸损失。通过估计平均操作符,本研究揭示了这种分解的变量的充分统计量,并将其应用于弱监督学习。最后,本文展示了大多数损失都享有一种依赖于数据的(通过平均算子)噪声鲁棒性。
Feb, 2016
在存在噪音标签的情况下,我们研究了在线分类问题。通过一般的核来建模噪音机制,为任何特征 - 标签对指定了一个(已知)噪音标签分布集合。每个时间步骤,对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布,并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测,如果预测与真实情况不同,则遭受损失 1(否则为 0)。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数,极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后,我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解,并且扩展并包含了 Ben-David 等人(2009)的研究结果,具有显著的广泛性。
Sep, 2023
我们介绍和分析了一种通用的在线算法,适用于二元、多类和多标签分类问题中的各种复杂性能指标,该算法的更新和预测规则简单且计算效率高,无需存储任何过去的数据,而且对于凹函数和平滑度函数达到了 O (ln n/n) 的遗憾,并通过实证研究验证了所提算法的效率。
Jun, 2024
我们提出了一种基于一致勒贝格测度的多标签学习器(CLML),证明了在贝叶斯风险框架下,CLML 可以实现理论上的一致性。实证证据支持了我们的理论,证明了:(1)CLML 可以始终获得最先进的结果;(2)勒贝格测度的设计是主要的性能因素,因为 CLML 优化了一个简单的前馈模型,而没有额外的标签图、扰动条件或语义嵌入;(3)结果的分析不仅可以区分 CLML 的有效性,还可以凸显代理损失函数和期望损失函数之间的不一致性。
Feb, 2024
本文通过理论分析探讨了在样本噪声存在的情况下,仅使用噪声样本能否学习到可靠模型的问题。作者认为,没有额外假设条件的情况下,经验风险最小化可以达到最优风险上限。此外,文章还讨论了 0-1 损失的极小极大下限问题,认为纯使用噪声样本无法学习。
Jun, 2023