Nov, 2023

感知分组解析器:通过迭代分组构建感知

TL;DR人类视觉识别系统显示了惊人的能力,能够将视觉信息压缩为一组包含丰富表示的令牌,无需标签监督。本文提出了感知分组标记器,一种完全依赖于分组操作的模型,用于提取视觉特征和进行自监督表示学习,其中一系列分组操作被用于迭代地假设像素或超像素的上下文,以改进特征表示。我们表明,与最先进的视觉架构相比,所提出的模型在性能上具有竞争力,并且具有自适应计算和可解释性等可取的属性。具体而言,感知分组标记器在 ImageNet-1K 自监督学习基准测试中以线性探测评估获得 80.3%的性能,标志着这一范例的新进展。