通过稀疏率降低白盒 Transformer 模型复杂度

Jun, 2023

通过稀疏率降低白盒 Transformer 模型复杂度

White-Box Transformers via Sparse Rate Reduction

Yaodong Yu, Sam Buchanan, Druv Pai, Tianzhe Chu, Ziyang Wu...

TL;DR本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物，通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时，我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来，并通过各种真实世界视觉数据集的实验表明，这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏，能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。

Abstract

In this paper, we contend that the objective of representation learning is to compress and transform the distribution of the data, say sets of tokens, towards a mixture of low-dimensional Gaussian distributions supported on incoherent subspaces. The quality of the final representation

representation learning transformer block sparse rate reduction multi-head self-attention deep network architectures

发现论文，激发创造

通过稀疏率减少实现的白盒变压器：压缩无外乎此

我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏，该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看，包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地，我们从这个目标的部分交替优化中推导出一个变压器块：多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示，随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构，其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明，前述压缩编码的逆可以由同一类 CRATE 架构实现。因此，这些衍生的白盒架构对编码器和解码器都是通用的。实验证明，尽管简单，但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示，并实现了与高度工程化的基于变压器的模型（ViT，MAE，DINO，BERT 和 GPT2）非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。

Nov, 2023

ReduNet：基于最大化比率降低原则的白盒深度网络

该研究提供了一个基于数据压缩和鉴别性表示原理来解释现代深度 (卷积) 神经网络的可行理论框架。该理论框架认为，对于高维多类数据，最优线性判别性表示最大化整个数据集和所有子集的平均值之间的编码率差异。

May, 2021

压缩基于 Transformer 的自监督模型用于语音处理

本文旨在探讨通过多种压缩技术（如剪枝和知识蒸馏）来减小基于 Transformer 的自监督模型的计算复杂度，以适应不同设备的应用场景，并通过比较参数数量、操作数和时间等指标，综合分析这些技术的优劣。

Nov, 2022

深度神经网络中稀疏性的状态

本文评估了三种在深度神经网络中引入稀疏性的技术，并对两个大规模的学习任务进行了严格评估，结果表明，简单的幅度剪枝方法可以获得相当或更好的性能，而不能从头开始训练稀疏结构，并强调了建立大规模基准测试的必要性。

Feb, 2019

稀疏二进制变换器用于多元时间序列建模

通过应用稀疏和二元权重变换器在多变量时间序列问题上，我们表明轻量级模型能够获得与相同结构的稠密浮点变换器相当的准确性。我们的模型在分类、异常检测和单步预测三个时间序列学习任务上取得了良好的结果，并应用了两种修改以减少注意力机制的计算复杂度，从而大大减少变换器中非零操作的数量。我们在参数数量、存储大小和浮点运算量（FLOPs）等多个度量标准上测量了我们的方法的计算节约，并展示了高达 53 倍的存储大小减少和高达 10.5 倍的 FLOPs 减少。

Aug, 2023

Transformer 模型中表示形式的自下而上演化：机器翻译和语言建模目标研究

本文研究不同学习目标下深度神经网络中单个标记的表现形式和学习的特征空间结构如何在各层之间演变，通过经典相关性分析和互信息估计研究信息如何在 Transformer 的不同层之间流动，并说明此流程如何取决于学习目标的选择。

Sep, 2019

学习多模态表示的自适应 Transformer

研究 transformers 中的注意机制对视觉和语言任务的扩展，并发展适应性方法来提高模型的可解释性和计算效率。具体地，研究注意范围、稀疏和结构化 dropout 等方法，以帮助了解模型对输入序列的复杂性感知和对不同模态的稀疏性偏好。

May, 2020

为视觉领域扩展白盒变压器

CRATE-$\alpha$ 是一种基于稀疏推理的白盒变换器架构，通过对 CRATE 结构进行小幅改进和轻量级训练，能够实现较大模型规模和数据集的可扩展性，同时保持模型的可解释性和提高模型性能，例如在 ImageNet 分类上的准确率达到 83.2% 或 85.1%。

May, 2024

元学习稀疏压缩网络

本文介绍了一种新的数据表示方法 —— 隐式神经表示法，经过结构优化后，可以对比 JPEG 等传统压缩方法得到更好的压缩效果，并提出了 Meta-Learning 算法在压缩和学习隐式神经表示方面的改进方法，实现了在不同数据模态下的卓越表现。

May, 2022

变换编码：等变表示的简单目标

通过简单的目标函数实现深度表示学习的同变深度嵌入，使用不同 Lie 群的变换编码目标实现表示的分解和解缠缠绕，并应用于各种下游任务，包括强化学习。

Feb, 2022