从显著性到 DINO: 基于显著性的视觉 Transformer 用于少样本关键点检测

Apr, 2023

从显著性到 DINO: 基于显著性的视觉 Transformer 用于少样本关键点检测

From Saliency to DINO: Saliency-guided Vision Transformer for Few-shot Keypoint Detection

Changsheng Lu, Hao Zhu, Piotr Koniusz

TL;DR研究提出了一种基于视觉转换器（ViT）的新型显著性引导视觉转换器（SalViT），实现了少样本关键点检测，并通过形态学学习者和软遮罩机制使关键点学习更加精确，同时还为从未见过的关键点和遮挡噪声提供了支持。

Abstract

Unlike current deep keypoint detectors that are trained to recognize limited number of body parts, few-shot keypoint detection (FSKD) attempts to localize any keypoints, including novel or base keypoints, depending on the reference samples. FSKD requires the semantically meaningful rel

few-shot keypoint detection vision transformer saliency-guided morphology learner transductive fskd

发现论文，激发创造

有监督的遮蔽知识蒸馏用于小样本变压器

本文提出了一种新的有监督掩蔽知识蒸馏模型 (SMKD)，将标签信息融入到自我蒸馏框架中，通过在类和图块标记上进行内部类知识蒸馏，并引入在类内图像中对屏蔽图块标记重构的挑战性任务，我们比以前的自我监督方法实现了更好的结果，实验结果显示，我们的方法在四个 few-shot 分类基准数据集上的性能优于以往方法。

Mar, 2023

基于任务内互注意力的视觉 Transformer 模型用于少样本学习

基于 Vision Transformer (ViT) 架构，本文提出了一种用于少样本学习的任务内互注意方法，通过交换支持集和查询集的类别标记与图像片段标记，实现了互注意，从而加强了类内表征，并促进了同一类别样本之间的相似性。与最先进的基准方法相比，在五个常见的少样本分类基准任务中，本文提出的框架在 5-shot 和 1-shot 情况下表现出的性能更好，同时具有简单、高效的计算能力。

May, 2024

自我监督的少样本变换器

本研究探讨了视觉变换器 (ViT) 在少样本学习中的能力，发现在相同的少样本学习框架下，用 ViT 模型替换常用的 CNN 特征提取器会严重削弱少样本分类性能；本研究提出了一种名为 Self-promoted sUpervisioN (SUN) 的简单而有效的 ViT 少样本训练框架，用于改善 token 依赖性问题，并通过实验证明了 SUN 优于其他同类技术，并超过了 CNN 的最新研究成果。

Mar, 2022

基于显著掩膜引导的视觉 Transformer 用于细粒度分类

本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer（SM-ViT）方法来在精细 - grained 视觉分类（FGVC）问题中捕捉潜在的可区分特征，进而提高视觉 Transformer 模型的分类性能。实验证明，SM-ViT 比现有的基于 ViT 的方法表现更优秀，需要更少的资源和较低的输入图像分辨率。

May, 2023

基于 Transformer 的可解释多摄像头 3D 物体检测与显著性图

我们提出了一种新颖的方法，用于生成用于 3D 物体检测的具有多个相机输入的 DetR-like ViT 的显著性图。我们的方法基于原始注意力，比基于梯度的方法更高效。通过大量的扰动测试，我们在 nuScenes 数据集上评估了所提出的方法，并展示了其在视觉质量和定量指标方面优于其他可解释性方法。我们还展示了在转换器的不同层之间聚合注意力的重要性。我们的工作有助于开发 ViT 的可解释 AI，通过更透明地了解 AI 模型的内部工作，可以提高人们对 AI 应用的信任。

Dec, 2023

自监督视觉 Transformer 中的新兴特性

本研究探讨自监督学习是否为 Vision Transformer (ViT) 提供了与卷积网络 (convnets) 相比更为突出的新特性，发现自监督 ViT 特征明确包含图像的语义分割信息，在 ImageNet 数据集中取得了 78.3% 的 top-1 准确率，并将这些发现用于自监督方法 DINO 中，通过线性评估，使 ViT-Base 在 ImageNet 数据集中取得了 80.1% 的 top-1 准确率。

Apr, 2021

分析自监督视觉变压器的局部表征

自本文中，我们对各种自监督视觉变换器（ViTs）进行了比较分析，重点研究了它们的局部代表能力。我们设计了一个评估框架，分析了在少样本语义分割、实例识别、目标检索和跟踪等背景下的局部表示质量。我们发现，基于对比学习的方法如 DINO 产生了更通用的局部表示，可以立即应用于无参数调整的下游任务，而掩蔽图像建模的方法中学习的嵌入具有高方差特征，对于大多数下游任务没有有用信息。此外，通过对本工作的基准和 Scale-MAE 的分析，我们证明了移除这些高方差特征对 k-NN 算法的改进。最后，我们发现 DINOv2 在多训练数量级的数据上预训练的模型在物体实例检索方面表现比计算消耗较小的 DINO 模型更差。

Dec, 2023

未见过物种的少样本关键点检测与不确定性学习

本研究提出了一种名为 “FSKD” 的方法，它利用少量标注样本可以对未知物种进行基准点和新关键点的检测。该方法包含主要和辅助基准点表示学习、相似性学习、基准点本地化不确定性建模等步骤，并引入了多元高斯分布来利用邻近基准点之间的隐式相关性。方法在检测新的基准点、少样本细粒度视觉识别和语义对齐任务中都表现出了有效性，其中在细粒度视觉识别中检测到的关键点提高了分类的准确性。

Dec, 2021

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

视觉显著性转换器

本文提出了一种基于 transformer 的纯序列转序列架构的视觉显著性检测器（VST），通过建模长程依赖关系，实现了对 RGB 和 RGB-D 显著对象检测的统一建模。实验结果表明，该方法在常用数据集上表现出色，并且提供了新的 SOD 领域的视角和 transformer-based dense prediction 模型的新范式”。

Apr, 2021