重复观测用于分类

Jul, 2023

Repeated Observations for Classification

Hüseyin Afşer, László Györfi, Harro Walk

TL;DR本研究主要探讨了非参数分类问题中，使用重复观测的情况，并提出了一些简单的分类规则，其条件错误概率在重复观测次数趋近于无穷时具有指数收敛速率。对于稳健检测、原型分类、线性变换、线性分类和尺度缩放等特定模型进行了分析。

Abstract

We study the problem nonparametric classification with repeated observations. Let $\bX$ be the $d$ dimensional feature vector and let $Y$ denote the label taking values in $\{1,\dots ,M\}$. In contrast to usual s

nonparametric classification repeated observations feature vectors classification rules convergence rate

发现论文，激发创造

带有噪声标签的高维度学习

该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为，利用随机矩阵理论和高斯混合数据模型，证明了当 p 和 n 趋近于无穷时，线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是，我们的发现表明低维处理标签噪声的直觉在高维中不成立，即低维中的最优分类器在高维中出现显著失败。基于我们的推导，我们设计了一种优化方法，经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。

May, 2024

高维超统计特征分类

研究在高维情况下通过经验风险最小化学习具有通用质心的两个数据点云的特征，涵盖了大量的数据分布，包括高斯混合分布和幂律分布，并分析了通过正则化的作用，推导了估计器的泛化性能，并探究了分布尺度参数对可分离性转换的影响。

Apr, 2023

在亚线性数据范围内估计可学习性

针对模型类如何拟合标记数据的问题，我们提出了一种计算学习能力的方法，可以使用较小的数据量得出精确结果。该方法也适用于二元分类问题，并在多种真实和合成数据集上得到了验证。

May, 2018

从聚合观察中学习

本文提出了一个概率框架，将多实例学习扩展到多类分类和回归等其他问题，并引入一种新的一致性概念来表征估计器，证明了在温和的假设下具有良好的收敛性。实验证明，该方法在三种问题设置中具有有效性。

Apr, 2020

非私有和私有数据的速率最优分类

在本文中，我们重新审视了分类的经典问题，但施加了隐私约束。在此约束下，无法直接观察原始数据（X1，Y1），…，（Xn，Yn），并且所有的分类器都是合适的本地差分隐私机制的随机结果的函数。统计学家可以自由选择这种隐私机制的形式，在这里，我们向每个特征向量 Xi 的位置和其标签 Yi 的离散化添加了拉普拉斯分布的噪声。分类规则是经过隐私保护的版本的良好研究分区分类规则。除了标准的 Lipschitz 和边距条件之外，还引入了一种新的特征，通过该特征可以计算出分类误差概率的精确收敛速率，无论是针对非私有数据还是私有数据。

Dec, 2023

在线预测线性回归

通过在线协议，本文针对线性回归问题中的预测版本进行了研究，提出了一种预测方法，能够在参数估计之前找到相关的预测间隔，最终得到的错误率符合预期的统计波动性。

Jun, 2009

高维度估计与几何约束

本文提出了一种简化的半参数单指数模型，用于信号处理中的估计问题，理论基于可行集的平均宽度并通过线性估计和度量投影实现，即使在高噪声情形下，未知的非线性关系也不会显著降低确定信号的能力。

Apr, 2014

多类别分类的性能外推：能够识别多少张人脸？

通过使用少数类别的数据，可以预测分类器在更多类别情况下的性能表现，以生成分类器为前提，通过估算准确性分布的条件准确性分布的 k-1 时刻，可以提供性能外推的理论基础，同时探讨了方法的稳健性。

Jun, 2016

作为双样本检验代理的分类准确性

探究在高维情况下对分类器的精度验证，证明一种基于排列组合的测试方法具有连续性及德克斯特拉极限分布的高斯近似测试也具有连续性，并以高斯分布为例进一步研究了线性判别分析和 Hotelling's 测试等方法的功率。

Feb, 2016

高维线性化双层神经网络

本论文研究了在球面上进行方差损失下的未知函数 f * 的学习问题，并研究了神经切向核模型和 Rahimi-Recht 的随机特征模型等两种流行的模型，以及核岭回归。同时，论文探讨了样本数量有限或由于关于度数和样本数的适当估计而未能实现最优化性能时的情况，以及核方法随机选取核函数时的情况。

Apr, 2019