镜像流对可分离数据的隐性偏差

Jun, 2024

Implicit Bias of Mirror Flow on Separable Data

Scott Pesme, Radu-Alexandru Dragomir, Nicolas Flammarion

TL;DR我们研究了线性可分的分类问题上，镜像流作为镜像下降的连续时间对应物。对于指数尾部损失函数和对镜像势能的适度假设，在镜像势能的限制函数方向上，我们证明了迭代会收敛到一个最大间隔分类器的 phi 无穷值。当势能是可分离的时候，一个简单的公式能够计算这个函数。我们分析了几个势能的示例，并提供了强调我们结果的数值实验。

Abstract

We examine the continuous-time counterpart of mirror descent, namely mirror flow, on classification problems which are linearly separable. Such problems are minimised `at infinity' and have many possible solution

mirror flow classification problems linearly separable mirror potential convergence

发现论文，激发创造

可分数据上梯度下降的收敛性

对采用严格单调尾部的损失函数（如对数损失）在可分离数据集上利用梯度下降时的隐式偏差进行了详细研究，证明了对于一大类超多项式尾部损失，梯度下降迭代可以收敛到任意深度的线性网络的 L2 最大边距解。

Mar, 2018

分离数据梯度下降的隐式偏差

本研究发现，在无正则化的逻辑回归问题、线性可分数据集上，使用均匀线性预测器的梯度下降法会收敛于最大间隔解的方向。收敛速度缓慢，方法适用于其他单调递减的损失函数、多类别问题和某些受限情况下的深层网络训练。此研究还可帮助理解模型的隐式正则化和其他优化方法。

Oct, 2017

梯度方法在可分数据上永不过拟

本文论述了使用梯度方法和指数损失训练线性预测器时，预测器的收敛方向渐近地趋向于最大边缘预测器，但无论迭代次数有多大，标准梯度方法（特别是梯度流、梯度下降、随机梯度下降）永远不会过拟合可分数据集。

Jun, 2020

通过原始 - 对偶分析表征隐式偏差

本文证明了对于线性可分数据，梯度下降的隐式偏差可以通过最优解的双重优化问题完全描述，从而实现了对一般损失的训练。此外，使用 L2 最大间隔方向的恒定步长可以获得 O (ln (n)/ln (t)) 的收敛速率，而使用适当选择的主动步长时间表，则可以获得对于 L2 间隔和隐式偏差的 O (1/t) 收敛速率。

Jun, 2019

有限维与无限维希尔伯特空间中凸函数的梯度流的定性差异

对于凸目标函数，研究了梯度流、加速梯度下降和随机梯度下降优化。我们证明了梯度流收敛缓慢（如果函数没有最小值），其超出能量在时间上是可积的，对于希尔伯特空间而言，这是最优的；在有限维空间中，存在凸函数的梯度流曲线，其减小速度比任何单调递减且在无穷远处可积的给定函数更慢。在相关设置中，类似的结果也适用于离散时间梯度下降、具有乘积噪声的随机梯度下降和重球 ODE 问题。

Oct, 2023

梯度下降对重新参数化模型的隐式偏差及其与镜像下降的等价性

本文讨论梯度下降算法中超参数模型中的隐含偏差问题，将超参数模型下的训练轨迹视为不同目标函数上的镜像下降，对该现象在 commuting parametrization 条件下进行了表征，证明了任何 commuting parametrization 的梯度流都等价于相关 Legendre 函数的连续镜像下降。

Jul, 2022

Sinkhorn Flow: Sinkhorn 算法的连续时间框架解读与推广

机器学习中的熵正则最优传输问题可以通过 Sinkhorn 算法进行求解，而该研究介绍了 Sinkhorn 算法的连续时间模拟以及其在噪声和偏差容忍性方面的改进，同时与机器学习和数学领域中其他动态方法提供了统一的视角。

Nov, 2023

通用优化方法的更快边缘最大化率

本文介绍了一种将常规优化算法转化为在线学习动态的方法，以解决具有多个局部极小值的给定训练目标的最小化，通过在线学习算法的遗憾界来获得隐式偏差率，并比较了梯度下降、镜像下降和最陡下降这三种不同的优化算法的隐式偏差率。

May, 2023

镜像下降的信息几何

通过 Bregman 分歧诱导的镜像下降是双重黎曼流形上的自然梯度下降算法，使用对数似然损失的镜像下降在指数族参数估计中渐近地达到了经典的 Cramer-Rao 下限，指数族对应的流形的自然梯度下降可以通过镜像下降实现一阶方法。

Oct, 2013

镜像下降统一控制隐式正则化方法

本文使用镜像下降方法来解决深度神经网络优化算法中的隐含正则化问题。

Jun, 2023