Sep, 2023

视觉 Transformer 需寄存器

TL;DR提供额外的令牌以填补低信息背景区域中高范数令牌的内部计算,从而修复监督和自监控模型的问题,实现密集视觉预测任务的自监控视觉模型的最新技术,使用更大模型进行对象发现,为下游视觉处理提供更平滑的特征图和注意力图。