Aug, 2024
下一个标记预测的隐式几何:从语言稀疏模式到模型表示
Implicit Geometry of Next-token Prediction: From Language Sparsity
Patterns to Model Representations
TL;DR本研究解决了下一标记预测(NTP)如何影响语言模式与模型表示几何属性之间映射的未知问题。通过将大型语言模型的训练框架视为稀疏概率标签向量上的软标签分类,提出了一种新颖的方法来分析单词和上下文嵌入的几何特征。研究发现,NTP隐式地促进了稀疏加低秩结构的学习,可能导致相同下一标记上下文的表示在适当子空间中聚集,这一现象称为子空间崩溃。