May, 2025

叠加导致神经网络的稳健缩放

TL;DR本研究解决了当前大型语言模型(LLMs)中神经缩放规律的起源不明的问题,提出了一个基于叠加和特征频率的玩具模型。研究发现,当叠加效应强烈时,损失与模型维度成反比关系,并且在分析开源LLMs时,这种预测得到了验证,表明叠加表示是神经缩放规律的重要机制,有望启发新的训练策略和模型架构。