Jun, 2024

一张图像胜过 16x16 贴片:研究基于单个像素的 Transformer 模型

TL;DR本研究发现在计算机视觉体系结构中的归纳偏置 —— 局部性的必要性存在疑问,可以通过直接将每个像素视为标记并获得高性能结果来展示像素作为标记的有效性。