Jan, 2024

重新思考面向掩码自编码器的补丁依赖

TL;DR我们重新审视了遮蔽自编码器(MAE)解码机制中的区块间依赖关系,并将此解码机制分解为自注意力和交叉注意力。我们的研究表明,区块之间的自注意力对于学习良好的表示并非必要。基于此,我们提出了一种新颖的预训练框架:交叉注意力遮蔽自编码器(CrossMAE)。CrossMAE 的解码器只利用遮蔽和可见标记之间的交叉注意力,而不会降低下游性能。这种设计还可以只解码一小部分遮蔽标记,提高效率。此外,每个解码器块现在可以利用不同的编码器特征,从而改善表示学习。与 MAE 相比,CrossMAE 在解码计算上只需 2.5 到 3.7 倍的计算量,并在相同计算量下超越了 ImageNet 分类和 COCO 实例分割的 MAE 性能。