Jul, 2022

梯度下降对重新参数化模型的隐式偏差及其与镜像下降的等价性

TL;DR本文讨论梯度下降算法中超参数模型中的隐含偏差问题,将超参数模型下的训练轨迹视为不同目标函数上的镜像下降,对该现象在 commuting parametrization 条件下进行了表征,证明了任何 commuting parametrization 的梯度流都等价于相关 Legendre 函数的连续镜像下降。