Nov, 2023

二分类的正则化线性回归

TL;DR对于具有噪声标签的二元分类问题,正则化线性回归是一种有前景的方法。本文系统研究了正则化强度对通过最小化正则化最小二乘目标来解决二元分类问题的线性分类器性能的影响。通过在超参数化条件下,假设类别是由高斯混合模型生成的,其中有一个小于1/2的比例的训练数据被误标记,我们严格分析了岭回归、L1和L∞回归应用时产生的分类错误。特别地,我们证明了岭回归总能改善分类错误。我们证明了L1正则化引起稀疏性,并观察到在许多情况下,不考虑GMM的稀疏结构,可以将解稀疏化两个数量级而不会有明显的性能损失。对于L∞正则化,我们证明了对于足够大的正则化强度,最优权重集中在两个相反符号的值周围。我们观察到在许多情况下,将每个权重压缩到一个位时几乎不会造成性能损失。这些观察结果具有重要的实际影响。