过参数化情况下线性分类器插值的有限样本分析
研究凸代理损失函数与二元分类问题中线性预测的分类误差率最小化之间的关系,发现在所有凸代理损失函数中,铰链损失提供了最佳的界限。同时,提供了特定凸代理损失的下界,显示常用损失函数之间的区别。
Jun, 2012
本文提出一种最大间隔分类器 SVM-GSU,使用多维高斯分布描述每个训练样本,以处理数据输入中的不确定性,并使用随机梯度下降方法高效地解决凸优化问题。通过测试,证明该方法的有效性。
Apr, 2015
本文提出了一个信息理论框架,用于评估在参数化贝叶斯设置下训练分类器所需的标记样本数量,并使用$L_p$距离导出分类器和真实后验概率分类器之间的平均距离的上下界,并利用$ L_p $丢失作为畸变度量,以后验分布的微分熵和插值维度的数量为最大先验分类器提供了下界和上界,这表征了参数分布族的复杂性,同时提供了计算贝叶斯$L_p$风险的下界,是可能近似正确(PAC)框架的补充,该框架提供了涉及Vapnik-Chervonenkis维度或Rademacher复杂性的最小极大风险界,而所提出的速率-失真框架则为数据分布平均的风险提供了下界。
May, 2016
本文提出了一个学习如何对最佳分类器的表现进行基准测试的框架,实现了对贝叶斯误分类误差率的准确评估,基于一个包含估计器的集成学习器和切比雪夫逼近进行基准学习,通过实验验证,相较之前的方法精确的评估了贝叶斯误差率。
Sep, 2019
本文建立了一个精确的高维渐近理论,探讨了分离数据上的 Boosting 的统计和计算方法。在考虑特征(弱学习器)数量 $p$ 与样本大小 $n$ 比例过大的高维情况下,提供了一种统计模型的确切分析,探讨了 Boosting 在插值训练数据并最大化经验 l1-margin 时的泛化误差,解答了 Boosting 的相关问题。同时,文章研究了最大 l1-margin,引入了新的非线性方程和高斯比较技术和均匀偏差论证。
Feb, 2020
本文研究了一种更一般的情形,其中逻辑模型的底层参数具有某些结构,并引入了更一般的框架(称为“广义边缘最大化器”,GMM),该模型是逻辑损失的一般线性模型。通过解决一组非线性方程的解来提供GMM性能的精确分析,在三种特殊情况下提供了详细的研究结果,验证了我们的理论结果。
Oct, 2020
本文研究现代机器学习系统中深度神经网络等通常高度过参数化的现象,探究其在数据生成、最大边界分类器和风险界限等方面的应用并给出改进性结果。
Apr, 2021
本文研究了高超参数线性模型在多类别高斯协变量下的渐近泛化,包括对 Subramanian 等人所提出的双层模型的研究,提出了新的下界,证明了该模型的渐近一致性,并提供了一个在稀疏标签多类问题中广泛适用的 Hanson-Wright 不等式的变体。
Jun, 2023
本文探讨了重尾输入分布下二分类问题中的良性过拟合现象,填补了在此领域的研究空白。我们扩展了最大边际分类器的分析,提出了对使用梯度下降训练线性分类器的泛化误差界限的理解,发现误分类错误会收敛到噪声水平。这项工作有助于在更稳健的分布设置中理解良性过拟合现象,并证明了即使在比以往研究中更重尾的输入条件下,该现象依然存在。
Sep, 2024