Feb, 2023

大型 Transformer 模型的隐藏表示的几何学

TL;DR研究表明,transformers 在蛋白质语言任务和图像重建任务中的表示以非常相似的方式演化,从而呈现出数据流形在隐藏层中的几何和统计特性,而数据流形的语义结构在第一阶段触发。基于这些观察结果,建议使用内在维度作为无监督代理,以确定下游学习任务更合适的层次。