May, 2023

KrADagrad:克罗内克近似主导梯度预处理随机优化

TL;DR该论文提出了一种新颖的矩阵分解方法 Kronecker Approximation-Domination (KrAD),用于直接近似实验 Fisher 矩阵的逆,避免了反转和 64 位精度,从而实现与 Shampoo 相似的计算成本和相同的 regret,同时在 32 位精度下比 Shampoo 表现更好。