ACLNov, 2023
学习的形态:基于 Transformer 模型的各向异性和固有维度
The Shape of Learning: Anisotropy and Intrinsic Dimensions in Transformer-Based Models
Anton Razzhigaev, Matvey Mikhalchuk, Elizaveta Goncharova, Ivan Oseledets, Denis Dimitrov...
TL;DR我们研究了 Transformer 结构中编码器和解码器之间的各向异性动态和内部维度,并发现解码器中的各向异性特征呈现出一个具有峰型曲线的独特模式,峰值位于中间层,与编码器中更均匀分布的各向异性特征不同。此外,我们发现嵌入的内部维度在训练的初始阶段增加,表明向更高维空间扩展,然后在训练末期经历降维的压缩阶段,暗示更紧凑的表示的提炼过程。我们的研究结果为理解编码器和解码器的嵌入特性提供了新的见解。