Aug, 2023

非线性单元的两层回归的收敛性

TL;DR大语言模型中的注意力计算结构,以及利用 Hessian 矩阵找到近似最优解的算法。