Jun, 2024

一张图像胜过16x16贴片:研究基于单个像素的Transformer模型

TL;DR本研究发现在计算机视觉体系结构中的归纳偏置——局部性的必要性存在疑问,可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。