极简白盒变压器下的分割算法出现
通过对简单的 Vision Transformer(ViT)模型进行高性能的分割实验,本文提出了 PlainSeg 和 PlainSeg-Hier 两种简洁高效的模型,包括了最后一个特征图的 3x3 卷积和 Transformer 编码器或解码器,并结合了高分辨率特征和更大的学习率,实验证明这些模型在语义分割中具有高性能和高效率,是评估基础模型转移能力的有力工具。
Oct, 2023
本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性,发现自监督 ViT 特征明确包含图像的语义分割信息,在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率,并将这些发现用于自监督方法 DINO 中,通过线性评估,使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。
Apr, 2021
本文综述了基于 transformer 的视觉分割技术,总结了近期的进展,详细介绍了各种方法设计和应用,并对该领域的未来研究方向进行了探讨。
Apr, 2023
CRATE-$\alpha$ 是一种基于稀疏推理的白盒变换器架构,通过对 CRATE 结构进行小幅改进和轻量级训练,能够实现较大模型规模和数据集的可扩展性,同时保持模型的可解释性和提高模型性能,例如在 ImageNet 分类上的准确率达到 83.2% 或 85.1%。
May, 2024
我们提出了一种利用自监督预训练的视觉 Transformer(ViT)来解决弱监督少样本图像分类和分割的方法,通过自注意力机制,利用自监督 ViT 的标记表示,通过独立的任务头预测分类和分割结果。实验结果表明,我们的模型在不需要像素级标签的情况下能够有效地学习分类和分割,只使用图像级别标签,并且在少量或无像素级标签的情况下表现出显著的性能提升。
Jul, 2023
使用 Vision Transformers 进行语义分割的研究,提出了 SegViTv2,通过全局注意力机制和轻量级 Attention-to-Mask 模块构建出性能更高的解码器、通过 Shrunk++ 结构降低编码器的计算成本,同时在持续学习的环境下实现近乎零遗忘。实验结果表明,SegViT 优于当前流行的语义分割方法。
Jun, 2023
使用自监督方法预训练的 Vision Transformer,成功地在使用 70 个训练图像的 Duckietown 环境中训练了一个粗略的图像分割模型,其推理分辨率可以调整以平衡预测粒度和实时感知约束,并用作简单而强大的视觉伺服代理的骨干,用于差分驱动移动机器人的车道跟踪和障碍物回避两个任务。
Mar, 2022
本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络(ConvNets)在检测各种类型的深度伪造方面的有效性,重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调,在利用自监督学习和变换器进行深度伪造检测时,我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性,且同时需要较少的计算资源。
May, 2024
自本文中,我们对各种自监督视觉变换器(ViTs)进行了比较分析,重点研究了它们的局部代表能力。我们设计了一个评估框架,分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现,基于对比学习的方法如 DINO 产生了更通用的局部表示,可以立即应用于无参数调整的下游任务,而掩蔽图像建模的方法中学习的嵌入具有高方差特征,对于大多数下游任务没有有用信息。此外,通过对本工作的基准和 Scale-MAE 的分析,我们证明了移除这些高方差特征对 k-NN 算法的改进。最后,我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。
Dec, 2023