Jul, 2023
统计学习的一阶方法与通用预言机的泛化误差
Generalization Error of First-Order Methods for Statistical Learning
with Generic Oracles
TL;DR我们提供了一种新的分析框架,用于分析统计学习中基于一阶优化算法的泛化误差,当只能通过一个 oracle 提供的部分观测来获取梯度。我们的分析依赖于梯度相对于数据样本的正则性,并且允许为多个学习问题,包括监督学习、迁移学习、鲁棒学习、分布式学习和使用梯度量化的通信高效学习推导出接近配对的上下界的泛化误差。这些结果适用于平滑和强凸优化问题,以及满足 Polyak-Lojasiewicz 假设的平滑非凸优化问题。我们的上下界依赖于一个新颖的量,它扩展了条件标准差的概念,并衡量了通过访问 oracle 获取梯度的程度。因此,我们的分析为优化统计学习目标的优化提供了精确的含义,即统计学习目标的优化与其梯度估计一样困难。最后,我们证明,在标准监督学习的情况下,批梯度下降法随着批次大小的增加和热启动可以达到近似最优的泛化误差,从而激励我们在实际应用中使用这种优化方案。