Feb, 2024

自适应梯度方法中是否可以去除平方根?一个二阶视角

TL;DR去掉平方根的自适应方法能够改善在卷积架构上的泛化差异,同时保持其基于平方根的对应物在转换器上的性能,从而提出了二阶的视角来发展带有非对角线的自适应方法,它们不需要数值不稳定的矩阵平方根,在低精度下工作良好。