Oct, 2023

梯度下降无法学习高频函数和模块算术

TL;DR通过梯度优化算法训练高频周期函数或模运算存在限制和挑战,即使频率或质数基数 - p 很大时梯度的方差也非常小,从而阻止该学习算法的成功。