Mar, 2024

Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性

TL;DR本文提供了首个关于 MIM 自监督预训练中使用 softmax 注意力的一层 transformer 的端到端理论,旨在解释 transformer 的理论机制,并分析其训练动态,以同时考虑输入和位置嵌入,在数据分布中产生局部和多样化的注意力模式,突出特征位置相关性和位置相关性。