We study the problem nonparametric classification with repeated observations.
Let $\bX$ be the $d$ dimensional feature vector and let $Y$ denote the label
taking values in $\{1,\dots ,M\}$. In contrast to usual s
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
在本文中,我们重新审视了分类的经典问题,但施加了隐私约束。在此约束下,无法直接观察原始数据(X1,Y1),…,(Xn,Yn),并且所有的分类器都是合适的本地差分隐私机制的随机结果的函数。统计学家可以自由选择这种隐私机制的形式,在这里,我们向每个特征向量 Xi 的位置和其标签 Yi 的离散化添加了拉普拉斯分布的噪声。分类规则是经过隐私保护的版本的良好研究分区分类规则。除了标准的 Lipschitz 和边距条件之外,还引入了一种新的特征,通过该特征可以计算出分类误差概率的精确收敛速率,无论是针对非私有数据还是私有数据。