Nov, 2023

通过稀疏率减少实现的白盒变压器:压缩无外乎此

TL;DR我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏,该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看,包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地,我们从这个目标的部分交替优化中推导出一个变压器块:多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示,随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构,其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明,前述压缩编码的逆可以由同一类 CRATE 架构实现。因此,这些衍生的白盒架构对编码器和解码器都是通用的。实验证明,尽管简单,但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示,并实现了与高度工程化的基于变压器的模型(ViT,MAE,DINO,BERT 和 GPT2)非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。