通过稀疏率减少实现的白盒变压器：压缩无外乎此

Nov, 2023

通过稀疏率减少实现的白盒变压器：压缩无外乎此

White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is?

Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu...

TL;DR我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏，该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看，包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地，我们从这个目标的部分交替优化中推导出一个变压器块：多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示，随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构，其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明，前述压缩编码的逆可以由同一类 CRATE 架构实现。因此，这些衍生的白盒架构对编码器和解码器都是通用的。实验证明，尽管简单，但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示，并实现了与高度工程化的基于变压器的模型（ViT，MAE，DINO，BERT 和 GPT2）非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。

Abstract

In this paper, we contend that a natural objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a low-dimensional →

representation learning compress gaussian mixture transformer block data compression

发现论文，激发创造

通过稀疏率降低白盒 Transformer 模型复杂度

本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物，通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时，我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来，并通过各种真实世界视觉数据集的实验表明，这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏，能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。

Jun, 2023

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

为视觉领域扩展白盒变压器

CRATE-$\alpha$ 是一种基于稀疏推理的白盒变换器架构，通过对 CRATE 结构进行小幅改进和轻量级训练，能够实现较大模型规模和数据集的可扩展性，同时保持模型的可解释性和提高模型性能，例如在 ImageNet 分类上的准确率达到 83.2% 或 85.1%。

May, 2024

基于结构扩散和白盒变换器的遮蔽完成

现代学习框架经常使用大量未标记数据来训练深度神经网络，通过解决简单的先验任务学习表示，并将这些表示用作下游任务的基础。本论文提出了第一个可以应用于大规模无监督表示学习的白盒设计范式，通过利用扩散、压缩和（掩码）补全之间的基本连接，导出了一种名为 CRATE-MAE 的深度变换器样式的掩码自编码器架构，其每个层的角色在数学上具有完全解释性：它们将数据分布转换为结构化表示并从中恢复。广泛的实证评估证实了我们的分析洞见。CRATE-MAE 在大规模图像数据集上表现出高度有希望的性能，而仅使用与相同模型配置的标准掩码自编码器相比，参数仅占 30%。CRATE-MAE 学习到的表示具有显式结构，同时包含语义含义。

Apr, 2024

深度神经网络中稀疏性的状态

本文评估了三种在深度神经网络中引入稀疏性的技术，并对两个大规模的学习任务进行了严格评估，结果表明，简单的幅度剪枝方法可以获得相当或更好的性能，而不能从头开始训练稀疏结构，并强调了建立大规模基准测试的必要性。

Feb, 2019

ReduNet：基于最大化比率降低原则的白盒深度网络

该研究提供了一个基于数据压缩和鉴别性表示原理来解释现代深度 (卷积) 神经网络的可行理论框架。该理论框架认为，对于高维多类数据，最优线性判别性表示最大化整个数据集和所有子集的平均值之间的编码率差异。

May, 2021

元学习稀疏压缩网络

本文介绍了一种新的数据表示方法 —— 隐式神经表示法，经过结构优化后，可以对比 JPEG 等传统压缩方法得到更好的压缩效果，并提出了 Meta-Learning 算法在压缩和学习隐式神经表示方面的改进方法，实现了在不同数据模态下的卓越表现。

May, 2022

稀疏二进制变换器用于多元时间序列建模

通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Aug, 2023

使用低比特 NxM 稀疏压缩预训练 Transformers 以增强自然语言理解

本文提出了新的框架 NxMiFormer，同时使用 ADMM 和 STE-based QAT 进行稀疏化和量化，通过搜索算法找到最优的异构压缩配置，使预处理 Transformer 网络在 NLU 测试中达到 93% 的压缩率并保持 98% 以上的准确性。

Jun, 2022

使用稀疏表示生成图像

本文提出一种基于分块离散余弦变换（DCT）块的生成模型，使用 Transformer-based 自回归模型对块进行预测，以生成高质量、多样化的图像，并展示了对于简单的改进，该方法在图像着色和高精度图像放大方面也具有有效性。

Mar, 2021