鲁棒性意味着数据相关的泛化界限推广
基于泛化界限的理论,我们提出了一种基于改变度量不等式的全新方法,能够紧密地将模型损失与人口中治疗倾向的偏差联系起来,并证明其在有限样本上的有效性,即使在隐性混杂因素和阳性违反的情况下也能成立。我们在半合成和实际数据上验证了我们的界限,展示了其出色的紧密性和实际效用。
May, 2024
研究三种不同强度的泛化理论 —— 稳健泛化、差分隐私和完美泛化的关系,并证明了每个假设类都可以在稳健泛化的情况下进行 PAC 学习,具有相近的样本复杂度。
Feb, 2016
本文介绍了一种利用无标签数据生成泛化界限的方法,并证明了其对 0-1 经验风险最小化和梯度下降训练的线性分类器是有效的。实证表明,该界限提供的泛化保证可以在计算机视觉和自然语言处理任务中跟踪实际表现。
May, 2021
本文研究了基于经验似然和分布鲁棒解的方法进行随机优化问题的统计推断,特别关注最优值的置信区间和渐近达到精确覆盖的解决方案。我们提出了一个基于非参数 $f$- 分歧球构建的分布不确定性集合的广义经验似然框架,用于 Hadamard 可微函数和随机优化问题,从而提供了一个有原则的选择分布不确定性区域大小的方法,以实现达到精确覆盖的单侧和双侧置信区间。我们还给出了我们分布鲁棒的公式的渐近展开,表明如何通过方差来规范化问题。最后,我们证明了,我们研究的分布鲁棒公式的优化器具有与经典样本平均逼近中的优化器基本相同的一致性属性。我们的一般方法适用于快速混合的平稳序列,包括几何上遗传的 Harris 递归马尔科夫链。
Oct, 2016
本文提出了关于数据相关假设集合普适性的研究,基于一种转移 Rademacher 复杂度的概念,为数据相关假设集合提供了普适性学习保证。我们的主要结果是一种关于数据相关假设集合的普适性界限,这个界限可以用我们引入的假设集合稳定性和数据相关假设集合的 Rademacher 复杂程度来表示。这个界限包括标准 Rademacher 复杂度的界限和算法相关的统一稳定性界限。我们还说明了这些学习界限在几种情况下的应用。
Apr, 2019
我们使用在线到批次转换范例,给出了从依赖数据源中获取的样本训练的统计学习算法的泛化界限,包括期望值和高概率。我们表明,统计学习器在依赖数据环境中的泛化误差等同于独立同分布环境中的泛化误差,除了一个依赖于底层混合随机过程的衰减速率且与统计学习器复杂性无关的项。我们的证明技巧涉及基于 Wasserstein 距离定义在线学习算法稳定性的新概念,并利用基于依赖随机变量的 “近似鞅” 浓度界限,得出了统计学习算法在依赖数据上的泛化误差的适当上界。
May, 2024
我们从 PAC-Bayesian 的角度提出了数据相关的均匀泛化界,通过将训练算法输出的数据相关假设集应用于随机集的严格方法,我们证明了数据相关的界,适用于多种情境,并将此方法应用于基于分形维度的泛化界和连续 Langevin 动力学以及随机梯度 Langevin 动力学的轨迹上,这些结果为噪声算法的泛化特性提供了新的信息。
Apr, 2024