分类中的噪音

Oct, 2020

Noise in Classification

Maria-Florina Balcan, Nika Haghtalab

TL;DR本文探讨计算和统计方面的学习线性阈值的问题，特别是噪音的存在对该问题带来的影响及其应对方法。

Abstract

This chapter considers the computational and statistical aspects of learning linear thresholds in presence of noise. When there is no

computational statistics linear thresholds noise data-generating process

发现论文，激发创造

带有噪声标签的高维度学习

该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为，利用随机矩阵理论和高斯混合数据模型，证明了当 p 和 n 趋近于无穷时，线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是，我们的发现表明低维处理标签噪声的直觉在高维中不成立，即低维中的最优分类器在高维中出现显著失败。基于我们的推导，我们设计了一种优化方法，经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。

May, 2024

鲁棒在线分类：从估计到去噪

在存在噪音标签的情况下，我们研究了在线分类问题。通过一般的核来建模噪音机制，为任何特征 - 标签对指定了一个（已知）噪音标签分布集合。每个时间步骤，对手根据实际的特征 - 标签对从核指定的分布集合中选择一个未知分布，并根据所选分布生成噪音标签。学习者根据迄今为止观察到的实际特征和噪音标签进行预测，如果预测与真实情况不同，则遭受损失 1（否则为 0）。预测质量通过计算有限时间视野 T 上的极小化风险来量化。我们证明了对于广泛的自然噪音核、对手选择的特征和有限类别的标记函数，极小化风险可以上界独立于时间视野并以标记函数类别尺寸的对数形式增长。然后，我们通过随机顺序覆盖的概念将这些结果推广到无限类别和随机生成的特征。我们的结果通过对在线条件分布估计的新颖归约提供了直观理解，并且扩展并包含了 Ben-David 等人（2009）的研究结果，具有显著的广泛性。

Sep, 2023

深度学习下存在噪声标签的图像分类：综述

本文介紹關於使用深度學習算法處理帶有噪聲標籤的問題，針對噪聲建立噪聲模型和使用魯棒損失、正則化等方法建立魯棒算法兩種子群進行了綜述。

Dec, 2019

噪声容忍和差分隐私的统计主动学习算法

提出一种基于统计学习框架的主动学习算法，能够高效地处理随机分类噪声和差分隐私，且可将其转换为能容忍分类噪声的主动学习算法，同时也实现了用指数级别的误差提高标签节约的差分隐私主动学习算法.

Jul, 2013

来自计算限制的对抗性示例

高维度分类器为何易受到 “对抗性” 扰动？本文中将阐述这种现象可能不是由于信息论的限制，而是由于计算约束所引起的。同时探讨了分类任务的一种特殊情况，即在高维空间中对于对抗扰动较大的学习是容易的，但是具有计算难度的。这种例子带来了对于经典学习和鲁棒性学习之间的计算复杂度的差异的新见解，并建议这种现象可能是学习算法计算能力所限制的必然副产品。

May, 2018

风险最小化下的噪声容错能力

本文探讨了分类器的噪音容忍性学习。通过风险最小化方法分析噪音容忍性，其中 0-1 损失函数具有较好的噪音容忍性，而其他损失函数则不具备。

Sep, 2011

利用类别可学性处理带噪数据

本文介绍了一种与分类器和训练算法共同作用的在线算法，通过其可提高在可学习类别上的整体性能

Nov, 2018

特征空间噪音分布的形状决定标签噪音的鲁棒性

本论文研究了机器学习中存在的标签噪音问题，提出了一个理论框架来模拟标签噪音分布对分类性能的影响，并发现标签噪音的分布对分类精度有很大的影响，尤其是当噪音集中在特定的特征空间时。此外，论文还探讨了一些解决噪音问题的方法，并发现存在一些困难。

Jun, 2022

分析标签噪声下分类器的鲁棒性

该研究探讨了标签噪声分类器的稳健性，旨在提高模型对复杂实际场景中的噪声数据的抵抗能力，并通过整合对抗机器学习和重要性重新加权技术来解决标签噪声对实际应用的影响。

Dec, 2023

利用本地化能力高效学习受到噪声影响的线性分离器

本研究提出了一种新的方法来设计计算效率高、能够容忍噪声的学习算法，并通过设计具有改善噪声容忍度的线性分离器学习算法来证明其有效性。在恶意噪声模型和对抗标签噪声模型方面展开讨论，并为这些模型提供了多项式时间算法，以在各自的噪声下学习线性分类器。在主动学习模型下，算法实现标签复杂度对于误差参数的对数对数依赖。

Jul, 2013