May, 2024

语言崩溃:(大型)语言模型中的神经崩溃

TL;DR本文通过实证研究探讨了扩展的因果语言模型(CLMs)的体系结构和训练对其进展向神经坍缩(NC)的影响,发现随着规模的扩大,NC的特性与泛化之间存在联系,并且即使在规模上无关的情况下,NC与泛化之间也存在某种关系。因此,本研究强调了NC的一般性,使其扩展到语言建模的新颖和更具挑战性的环境中,希望进一步研究该现象以加深对LLMs(大型语言模型)和神经网络的理解,并改进基于NC相关特性的现有架构。