EMNLPOct, 2023

在语言模型中桥接信息论压缩与几何压缩

TL;DR通过分析语言模型(LM)中的压缩方法,从几何和信息论的角度,我们证明这两种视角高度相关,表明语言数据的内在几何维度可以预测其在 LM 下的编码长度,进而表明语言信息压缩能力是成功 LM 性能的重要组成部分。同时,我们还评估了一系列首次应用于语言数据的特征维度估计器,表明只有其中的一部分能够概括信息论压缩、几何压缩和适应性关系。