向量值学习的细粒度泛化分析
本文提出了一个框架,用于推导具有广泛特征映射和损失函数的向量值学习的风险界限。我们采用多任务学习和一对多多类别学习作为例子,并详细讨论了具有一层隐藏层的向量值函数,并证明了共享表示何时有利于多任务学习同样适用于多类别学习。
Jun, 2016
我们研究具有向量值输出的一类正则化算法的理论性质,包括核岭回归、核主成分回归、梯度下降的各种实现等。我们的贡献有两个方面:首先,通过推导出一种新的学习速率下限,我们严格确认了具有向量值输出的岭回归的所谓饱和效应;当回归函数的平滑度超过一定水平时,该下限被证明是次优的。其次,我们给出了适用于有限样本风险的一般向量值谱算法的上限,适用于规范良好和规范错误的情况(真实的回归函数在假设空间之外),在多种情况下都是最小化最优的。我们的所有结果明确允许无限维度的输出变量情况,证明了最近实际应用的一致性。
May, 2024
本论文提供了关于向量值随机特征(RF)学习的全面误差分析,为 RF 岭回归在输入输出设置下建立了理论,该方法直接分析了风险函数,避免随机矩阵理论中的浓度结果,主要结果包括在模型未规范化情况下向量值 RF 估计量的强一致性和在规范化设置下的极小极小收敛速度。
May, 2023
本文利用 U 统计和 Rademacher 复杂性分析方法,针对度量学习和相似度学习,推导出了一种新的泛化边界方法,证明了 L1 范数正则化的稀疏度量学习和相似度学习可能比 Frobenius 范数正则化的模型具有更好的边界效果。
Jul, 2012
通过对概率测度空间进行微分计算的视角,我们提出了一个探索算法的弱广义误差和 $L_2$ 广义误差的新框架。具体而言,我们考虑 KL - 正则化的经验风险最小化问题,并建立了通用条件,使得在训练样本大小为 n 的情况下,广义误差的收敛速率是 $O (1/n)$。在一隐藏层神经网络的平均场区域的监督学习方面,这些条件反映在对损失和激活函数的适当可积性和正则性假设中。
Jun, 2023
研究了具有有界更新的迭代学习算法在非凸损失函数上的泛化特性,采用信息论技术。我们的主要贡献是针对具有有界更新的这些算法提出了新的泛化误差界,超出了之前仅关注随机梯度下降(SGD)的范畴。我们的方法引入了两个新颖之处:1)我们将互信息重新表述为更新的不确定性,提供了新的视角;2)我们采用方差分解技术来分解迭代中的信息,而不是使用互信息的链式法则,从而实现了一个更简单的替代过程。我们在不同设置下分析了我们的泛化界,并展示了当模型维度与训练数据样本数量以相同的速率增加时改进的界限。为了弥合理论与实践之间的差距,我们还研究了大型语言模型中先前观察到的标度行为。最终,我们的工作为发展实用的泛化理论迈出了更进一步的步伐。
Sep, 2023
本文研究了多分类算法的泛化性能,首次获得一种基于数据的泛化误差界限,并在现有数据相关泛化分析的线性依赖条件基础上,显著提高了类大小的对数依赖性。理论分析促使我们引入了一种基于 $\ell_p$- 范数正则化的新型多分类分类机器,其中参数 $p$ 控制相应限制的复杂度。我们基于 Fenchel 对偶理论导出了一种高效的优化算法。对几个真实世界数据集的基准测试表明,所提出的算法可以实现显着的精度提高。
Jun, 2015
本研究研究了随机梯度下降(SGD)这种普遍使用的随机优化方法的泛化特性,提供了依赖于在 SGD 计算的迭代路径上评估的随机梯度的本地统计信息的泛化误差的理论上限,其关键因素是梯度的方差及目标函数沿 SGD 路径的局部光滑性以及损失函数对最终输出的扰动敏感度和信息理论泛化界限等。
Feb, 2021
本文提出了一种基于次梯度方法的新型迭代正则化形式,经过实验迭代停止可以实现广义化。在再生核希尔伯特空间的非参数设定下,我们证明了在一般正则条件下的有限样本损失风险界。本研究提供了一类高效正则化学习算法,并给出了统计学和优化学在机器学习中相互作用的见解。
Mar, 2015