度量学习和相似度学习的泛化误差界
本篇论文提出一种新的核函数以及一种新的编辑相似性模型,可以更好地优化距离和相似度函数,提高 k 近邻算法的性能,并在学习相似性时考虑到泛化能力与算法的稳定性, 解决了当前度量学习方法的局限性,为特征向量和结构化对象(如字符串或树)的度量学习提供了新方法。
Jul, 2013
我们通过利用真实度量(目标函数)的特定结构,构建了一个近似真实度量的结构化深层 ReLU 神经网络,从而研究了度量和相似性学习的泛化性能,推导了度量和相似性学习问题的过度泛化误差界限,并通过仔细估计逼近误差和估计误差,得出了一个最佳的过度风险率,这是首次的度量和相似性学习的过度泛化错误分析,此外,我们还研究了具有一般损失的度量和相似性学习的真实度量的属性。
May, 2024
算法和数据相关的广义化界限是解释现代机器学习算法的广义化行为所必需的。在这个背景下,存在包括 (各种形式的) 互信息和基于假设集稳定性的信息论广义化界限。我们提出了一个概念上相关但技术上独特的复杂度度量方法来控制广义化误差,这就是算法和数据相关的假设类的经验 Rademacher 复杂度。通过结合 Rademacher 复杂度的标准特性和这个类的方便结构,我们能够 (i) 获得基于有限分形维度的新界限,这些界限将之前从连续假设类推广到有限假设类,并避免了先前工作中所需的互信息项;(ii) 大大简化了最近一个和维度无关的随机梯度下降的广义化界限的证明;(iii) 我们轻松恢复了 VC 类和压缩方案的结果,类似于基于条件互信息的方法。
Jul, 2023
本文提出了一个正则化框架下的向量值学习算法的一般化分析。该论文扩展了现有假设空间,损失函数平滑性和低噪声条件的限制。此外,作者还将这些结果应用于多类别和多标签分类。
Apr, 2021
本文研究了基于在线学习的随机方法的泛化特性,提出了一种通用的解耦技术,可以提供基于 Rademacher 复杂度的泛化误差界限,并进一步分析了一类内存效率的在线学习算法。
May, 2013
本文提出了可对比学习的新型概率界,它不依赖于 $k$ 的值,直到对数项。采用实证涵盖数和 Rademacher 复杂性的构造结果,从而利用损失函数的 Lipschitz 连续性,进一步发展了乐观界,并应用于学习线性与非线性表示的深度神经网络,进而导出了 Rademacher 复杂性中精确的学习界。
Feb, 2023
这项工作提供了基于 PAC 风格的样本复杂度给监督式度量学习,并通过使用数据分布的结构,展示了适用于特定隐含复杂的例子的适当匹配的速率。实验也表明,规范化度量学习优化准则可以帮助适应数据集的固有复杂性,从而提高泛化性能。
May, 2015
本文介绍一种基于非半正定线性相似性的学习算法,用于分类,该算法能够通过最优化距离和相似度函数来在非线性特征空间中学习,该方法得到应用后,在各种数据集上比起现有方法具有更好的效果,而且速度快、防止过拟合和产生非常稀疏的分类器。
Jun, 2012