May, 2024

为视觉领域扩展白盒变压器

TL;DRCRATE-$\alpha$ 是一种基于稀疏推理的白盒变换器架构,通过对 CRATE 结构进行小幅改进和轻量级训练,能够实现较大模型规模和数据集的可扩展性,同时保持模型的可解释性和提高模型性能,例如在 ImageNet 分类上的准确率达到 83.2% 或 85.1%。