感知分组解析器：通过迭代分组构建感知

Nov, 2023

感知分组解析器：通过迭代分组构建感知

Perceptual Group Tokenizer: Building Perception with Iterative Grouping

Zhiwei Deng, Ting Chen, Yang Li

TL;DR人类视觉识别系统显示了惊人的能力，能够将视觉信息压缩为一组包含丰富表示的令牌，无需标签监督。本文提出了感知分组标记器，一种完全依赖于分组操作的模型，用于提取视觉特征和进行自监督表示学习，其中一系列分组操作被用于迭代地假设像素或超像素的上下文，以改进特征表示。我们表明，与最先进的视觉架构相比，所提出的模型在性能上具有竞争力，并且具有自适应计算和可解释性等可取的属性。具体而言，感知分组标记器在 ImageNet-1K 自监督学习基准测试中以线性探测评估获得 80.3％的性能，标志着这一范例的新进展。

Abstract

Human visual recognition system shows astonishing capability of compressing visual information into a set of tokens containing rich representations without label supervision. One critical driving principle behind it is perceptual grouping. Despite being widely used in computer vision i

visual recognition system perceptual grouping neural visual recognition self-supervised representation learning adaptive computation

发现论文，激发创造

深度无监督感知分组

本文介绍了一种有效的感知推断框架，该框架能够显式地处理输入和特征的分割，并通过增强神经网络的表示能力并对对象表示进行迭代分组，以及对其分组迭代推理进行摊销从而实现了快速收敛，相比其他处理多物体场景的方法，该方法不假设输入为图像，因此可以直接处理其他模态，并在处理具有纹理分割的复杂图像时提供更好的分类性能。

Jun, 2016

统一感知分析的深度分组模型

本文介绍了一种称为深度分组模型的方法，该方法可以将视觉感知组合过程融入到最新的卷积神经网络中进行图像分割，并在基于 Broden + 数据集的统一感知解析任务中实现了最优结果。

Mar, 2020

GroupViT：语义分割从文本监督中崛起

本文提出了一种针对视觉场景理解任务的新型深度学习网络 —— 分层分组视觉变换器 (GroupViT)，能够学习将图像区域分组成任意形状的语义段，且仅依赖于文本监督，无需像素级注释，实现了零阶段语义分割任务，并在 PASCAL 语义分割数据集上获得了 52.3% 的 mIoU。

Feb, 2022

CAST：自适应段标记的并发识别和分割

通过无监督学习，本研究提出了一种基于像素、分割区域和完整图像级别同时学习的分层图像识别方法，通过引入自适应段落令牌和图池化来实现多尺度分割，同时提高识别精度和计算效率。

Oct, 2022

分层组合自监督视觉表示学习

本文提出了一种从原始视觉分组能力启动视觉表示学习的框架，操作化分组通过轮廓检测器，该检测器将图像分割成区域，并将这些区域合并成树形层次结构。实验表明，我们的方法朝着通用预训练方法的方向发展，其对下游任务有益，并可用于语义区域搜索和基于视频的对象实例跟踪。

Dec, 2020

普适感知分组

本研究旨在开发一种通用的素描分组器，首先提出了最大的素描感知分组（SPG）数据集，构建了一个深度通用感知分组模型通过更好的损失函数优化达到了良好的模型性能，并证明了该模型对于许多素描分析任务的有效性。

Aug, 2018

视觉 Transformer：面向计算机视觉的基于令牌的图像表示和处理

本文通过使用视觉 Transformer 在语义标记空间中密集地建模标记关系并减少卷积计算量，从而在 ImageNet top-1 和 LIP，COCO-stuff 图像分割测试上表现出了显着的优势。

Jun, 2020

利用语义分组进行自监督视觉表示学习

本文探讨了从无标签场景中心数据中学习视觉表示的问题，提出了一种的基于对比学习和数据驱动语义槽的语义聚类和表示学习方法，通过此方法能够更好的区分特征和语义相符的像素点，以此来有效地分解场景中的像素群组，并显著提高目标检测、实例分割和语义分割等下游应用的效果。

May, 2022

使用 Transformer 进行对比分组的指向图像分割

在本文中，我们提出了一种使用对比式分组和 Transformer 网络 (CGFormer) 的掩模分类框架，通过基于令牌的查询和分组策略来明确捕捉对象级信息。CGFormer 通过交替查询语言特征并将视觉特征分组到查询令牌中进行对象感知的跨模态推理，最终通过对比学习来确定与参考对象对应的令牌及其掩模，实验结果显示 CGFormer 在分割和泛化设置中始终明显优于最先进的方法。

Sep, 2023

将空间一致分组与文本监督的语义分割相结合

该研究通过自学习模型和文本监督模型相结合，采用有意义的空间一致性对图像进行语义分割，增强了文本监督模型对物体边界的识别，实现了良好的分割效果。

Apr, 2023