为视觉领域扩展白盒变压器
我们认为表示学习的自然目标是将数据的分布压缩和转换为支持在不相关子空间上的低维高斯混合模型。我们通过基于名为稀疏率减少的原则性度量评估这种表示的好坏,该度量同时最大化所学表示的内在信息增益和外在稀疏性。从这个角度来看,包括变压器在内的流行深度网络结构可以看作是实现此度量优化的迭代方案。特别地,我们从这个目标的部分交替优化中推导出一个变压器块:多头自注意算子通过在特征的编码率上实施近似梯度下降步骤来压缩表示,随后的多层感知机稀疏特征。这导致了一系列名为 CRATE 的白盒变压器式深度网络结构,其在数学上是完全可解释的。我们通过去噪和压缩之间的新连接表明,前述压缩编码的逆可以由同一类 CRATE 架构实现。因此,这些衍生的白盒架构对编码器和解码器都是通用的。实验证明,尽管简单,但这些网络确实学习到了大规模实际图像和文本数据集的压缩和稀疏表示,并实现了与高度工程化的基于变压器的模型(ViT,MAE,DINO,BERT 和 GPT2)非常接近的性能。我们相信所提出的计算框架在统一的数据压缩视角下展示了深度学习理论和实践之间的巨大潜力。代码可以在此链接获得: https:// 此 URL。
Nov, 2023
现代学习框架经常使用大量未标记数据来训练深度神经网络,通过解决简单的先验任务学习表示,并将这些表示用作下游任务的基础。本论文提出了第一个可以应用于大规模无监督表示学习的白盒设计范式,通过利用扩散、压缩和(掩码)补全之间的基本连接,导出了一种名为 CRATE-MAE 的深度变换器样式的掩码自编码器架构,其每个层的角色在数学上具有完全解释性:它们将数据分布转换为结构化表示并从中恢复。广泛的实证评估证实了我们的分析洞见。CRATE-MAE 在大规模图像数据集上表现出高度有希望的性能,而仅使用与相同模型配置的标准掩码自编码器相比,参数仅占 30%。CRATE-MAE 学习到的表示具有显式结构,同时包含语义含义。
Apr, 2024
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物,通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时,我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来,并通过各种真实世界视觉数据集的实验表明,这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏,能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。
Jun, 2023
本文提出了一种新的有效的神经网络结构 CageViT,该结构利用卷积激活来减少计算,并通过新的编码器来处理重组的标记;实验结果表明,CageViT 在图像分类挑战中的有效性优于当前最新的先进骨干。
May, 2023
提出了一种名为 As-ViT 的自动缩放框架,用于设计和扩展 Vision Transformers (ViT),并在分类和检测任务上获得了强大的性能,其模型设计和缩放过程仅需 12 小时的训练。
Feb, 2022
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
本文提出了一种简单的视觉 Transformer 设计,作为目标定位和实例分割任务的强大基线,绕过传统设计思路,通过 UViT 架构实现更好的计算成本和多尺度全局上下文聚合的平衡。
Dec, 2021
提出优化 Transformer 模型 (ViT) 部署过程中训练代价高的问题的快速无需训练压缩框架,其中包括初层的稠密特征提取器、压缩率更高的模型和利用空间关系的局部 - 全局令牌合并方法,在多个模型上实现了至多 2 倍的 FLOPS 减少和 1.8 倍的推理吞吐量提升,训练时间比现有方法节省两个数量级。
Mar, 2023