Feb, 2024

用梯度下降学习联想记忆

TL;DR研究关联记忆模块的训练动态,通过对数据分布和嵌入之间相关性的性质进行粒子系统的研究,揭示过参数化条件下 ' 分类边界 ' 呈对数增长、标记频率不平衡和相关嵌入导致的振荡瞬态阶段、过大步长引起的良性损失峰值以及欠参数化条件下交叉熵损失的副优化记忆方案等现象,并对小型 Transformer 模型进行了验证。