May, 2024

层归一化的几何和动力学

TL;DR一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解,通过开发新的数学表达和几何直觉,使其净效应更透明,强调当 LayerNorm 作用于 N 维向量空间时,所有 LayerNorm 的结果位于 (N-1) 维超平面与 N 维超椭球体内部的交集中,该交集是 (N-1) 维超椭球体的内部,而典型输入被映射到其表面附近。我们通过对一个简单构建的矩阵进行特征值分解来找到这个 (N-1) 维超椭球体的主轴方向和长度。