正则化在高维噪声高斯混合分类中的作用
本文通过理论分析,在高维数据考虑时,通过经验风险最小化框架的分类性能,针对两类高斯混合问题,提出了精确的分类误差预测,并且提出了在岭正则化和非正则化的情况下,都采用简单的平方损失作为高维分类的最优选择。
May, 2019
研究在高维情况下通过经验风险最小化学习具有通用质心的两个数据点云的特征,涵盖了大量的数据分布,包括高斯混合分布和幂律分布,并分析了通过正则化的作用,推导了估计器的泛化性能,并探究了分布尺度参数对可分离性转换的影响。
Apr, 2023
本文在高维渐近极端条件下,对岭回归和正则化判别分析在密集随机效应模型中的预测风险进行了统一分析,并提供了两种方法的极限预测风险的明确和高效可计算的表达式。同时,揭示了岭回归和正则化判别分析各自的一些定性见解,本分析基于最近在随机矩阵理论领域的一些新进展。
Jul, 2015
本文研究了高维稳健回归估计器的渐近性质以及基于概率启发式的方法解释了其渐近行为,通过随机矩阵理论、集中测度和凸分析的思想提出了严谨证明,这里对某些假设进行了放宽并发现当 $ au=0$ 时可作为极限情况来恢复。
Nov, 2013
使用统计物理学中的复制法,我们针对一个综合数据集,研究了广义线性回归和分类问题,在超参数化和不充分参数化的条件下,为这些问题提供了渐近泛化表现的闭式表达式,特别地,我们展示了逻辑回归的双重下降效应,突显了用正交投影相比随机高斯投影在学习随机特征时的优越性,讨论了隐藏流形模型中数据相关性的作用。
Feb, 2020
该研究论文探讨了高维二分类在具有条件性噪声标签的情况下的理论视角。通过研究具有标签噪声感知损失函数的线性分类器在维度 p 和样本数 n 都很大且可比时的行为,利用随机矩阵理论和高斯混合数据模型,证明了当 p 和 n 趋近于无穷时,线性分类器的性能收敛至涉及数据的标量统计量的一个界限。重要的是,我们的发现表明低维处理标签噪声的直觉在高维中不成立,即低维中的最优分类器在高维中出现显著失败。基于我们的推导,我们设计了一种优化方法,经证明在处理高维噪声标签方面更加高效。我们的理论结论在真实数据集上的实验证实了我们的优化方法优于考虑的基准方法。
May, 2024
通过解决正则化 M - 估计问题,我们成功预测了在高维比例范式下这种估计器的误差性能,并识别了一种新的总结参数,称为预期的 Moreau 信封,在误差表征中起着核心作用。
Jan, 2016
本文研究了高维情况下正则化逻辑回归(RLR),其中加入了鼓励所需结构的凸正则项。通过求解一组非线性方程组,我们提供了 RLR 性能的精确分析,并获得了各种性能度量的显式表达式。我们进行了广泛的数值模拟,并在各种参数值和问题实例中验证了理论。
Jun, 2019
对于具有噪声标签的二元分类问题,正则化线性回归是一种有前景的方法。本文系统研究了正则化强度对通过最小化正则化最小二乘目标来解决二元分类问题的线性分类器性能的影响。通过在超参数化条件下,假设类别是由高斯混合模型生成的,其中有一个小于 1/2 的比例的训练数据被误标记,我们严格分析了岭回归、L1 和 L∞回归应用时产生的分类错误。特别地,我们证明了岭回归总能改善分类错误。我们证明了 L1 正则化引起稀疏性,并观察到在许多情况下,不考虑 GMM 的稀疏结构,可以将解稀疏化两个数量级而不会有明显的性能损失。对于 L∞正则化,我们证明了对于足够大的正则化强度,最优权重集中在两个相反符号的值周围。我们观察到在许多情况下,将每个权重压缩到一个位时几乎不会造成性能损失。这些观察结果具有重要的实际影响。
Nov, 2023