Jun, 2023

通过稀疏率降低白盒 Transformer 模型复杂度

TL;DR本研究旨在将表示学习的对象转化为一组符合不相关子空间中的低维高斯分布混合物,通过稀疏率降低统一目标函数的质量用以衡量终极表示。同时,我们揭露了标准变压器块可以从这个目标的互补部分的交替优化中推导出来,并通过各种真实世界视觉数据集的实验表明,这些网络确实可以学习到设计目标的优化使图片高度压缩表示和稀疏,能够和如 ViT 一般经过深入的工程设计后的变压器网络取得相当的表现。