BriefGPT.xyz
Ask
alpha
关键词
nonlinear scaling
搜索结果 - 1
层归一化的几何和动力学
一篇技术说明旨在提供对深度神经网络中常见的 LayerNorm 函数更深入的直观理解,通过开发新的数学表达和几何直觉,使其净效应更透明,强调当 LayerNorm 作用于 N 维向量空间时,所有 LayerNorm 的结果位于 (N-1)
→
PDF
2 months ago
Prev
Next