本文研究了多分类算法的泛化性能,首次获得一种基于数据的泛化误差界限,并在现有数据相关泛化分析的线性依赖条件基础上,显著提高了类大小的对数依赖性。理论分析促使我们引入了一种基于$\ell_p$-范数正则化的新型多分类分类机器,其中参数$p$控制相应限制的复杂度。我们基于Fenchel对偶理论导出了一种高效的优化算法。对几个真实世界数据集的基准测试表明,所提出的算法可以实现显着的精度提高。
Jun, 2015
本文分析局部插值方案,包括几何单纯插值算法和单一加权k近邻算法,在分类和回归问题中证明了这些方案的一致性或近一致性,并提出了一种解释对抗性示例的方法,同时讨论了与核机器和随机森林的一些联系。
Jun, 2018
本文建立了一个精确的高维渐近理论,探讨了分离数据上的 Boosting 的统计和计算方法。在考虑特征(弱学习器)数量 $p$ 与样本大小 $n$ 比例过大的高维情况下,提供了一种统计模型的确切分析,探讨了 Boosting 在插值训练数据并最大化经验 l1-margin 时的泛化误差,解答了 Boosting 的相关问题。同时,文章研究了最大 l1-margin,引入了新的非线性方程和高斯比较技术和均匀偏差论证。
Feb, 2020
研究了高维混合的两个高斯类在噪声条件下的学习,正则化方法可以让分类器达到贝叶斯最优性能,同时分析了正则化程度的影响。
通过分析在随机数据集以及有噪声数据集情况下最大间隔算法的应用,探讨了过度参数化的最大间隔算法训练噪声数据集可以实现接近最优的数据种群风险,其中数据噪声由对手选择在一定范围内。
Apr, 2020
本文分析了最小范数插值分类器的遗憾和概括,并推导出一种适用于所有数据集的错误边界和正则化变量。当数据独立同分布时,错误边界意味着 MNIC 的泛化率与插值解的范数成比例,与数据点数成反比。作者提出了几个合理的生成模型,并证明只要总变差足够可分,MNIC就可以以快速率进行泛化。
Jan, 2021
我们研究了多类别分类中的学习与弃权的关键框架,介绍了一系列新的理论和算法结果,提出了几个新的代理损失函数家族,并分析了单阶段和两阶段学习设置的保证和应用,证明了我们的代理损失的优越性,并展示了广泛适用的两阶段弃权算法的卓越性能。
Oct, 2023
利用线性回归在过参数化制度中进行多类别分类研究,分析了数据集中的标签错误对分类性能的影响,研究发现加入正则项可以避免过拟合错误标签,并证明了当正则函数为2-范数时的最佳分类性能,同时还分析了1-范数和无穷范数时的分类错误情况以及可能接近2-范数解的稀疏和一位解。
Feb, 2024
本研究针对机器学习中的弱教师与强学生模型,深入探讨了在不完美伪标签下的弱到强泛化问题。研究发现,在弱监督之后,强学生会经历成功泛化和随机猜测两个渐近阶段,并提出了适用于该理论的关键不等式,为后续的多类分类研究奠定了基础。
Oct, 2024
本研究探讨了在可分类场景或分类器过参数化情况下分类器的学习动态,填补了关于全局最优解的泛化能力的研究空白。通过分析,我们证明在可分类场景中,"不良"全局最优解的比例随着训练数据数量的增加呈指数下降,这一发现为过参数化神经网络的良好泛化能力提供了新视角。