Jun, 2024
一张图像胜过 16x16 贴片:研究基于单个像素的 Transformer 模型
An Image is Worth More Than 16x16 Patches: Exploring Transformers on Individual Pixels
Duy-Kien Nguyen, Mahmoud Assran, Unnat Jain, Martin R. Oswald, Cees G. M. Snoek...
TL;DR本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问,可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。