Feb, 2024

变压器学习上下文中的非线性特征:基于注意力场景的非凸平均场动力学

TL;DR通过对基于 Transformer 架构的大型语言模型进行研究,本文证明了在均场动力学中,无论高度非凸的参数分布的无限维损失曲面,均很温和,而 Wasserstein 梯度流几乎总是避免鞍点,这是对均场动力学的第一次鞍点分析,相关技术具有独立的研究价值。