DenseDINO: 通过基于 Token 的点级一致性提高密集型自监督学习

IJCAIJun, 2023

DenseDINO: 通过基于 Token 的点级一致性提高密集型自监督学习

DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency

Yike Yuan, Xinghe Fu, Yunlong Yu, Xi Li

TL;DR本文提出了一种名为 DenseDINO 的简单且高效的自监督学习的 transformer 框架，用于学习密集视觉表示。通过跨视图引入基于 token 的点级监督来利用密集预测任务需要但被现有自监督 transformer 所忽略的空间信息。与 vanilla DINO 相比，在 ImageNet 的分类评估中获得了有竞争力的表现，并在 PascalVOC 上的语义分割中在线性探测协议下实现了大幅度的提升 (+7.2％mIoU)。

Abstract

In this paper, we propose a simple yet effective transformer framework for self-supervised learning called densedino to learn dense visual

transformer framework self-supervised learning densedino dense visual representations point-level supervision

发现论文，激发创造

DINO-Tracker：单视频中自监督点追踪的 DINO 驯化

DINO-Tracker 是一种新的视频长期密集跟踪框架，通过在单个视频上进行测试时间训练，并结合预训练的 DINO-ViT 模型中学到的强大的局部语义特征，从而适应测试视频的动态观察，同时训练一种直接利用改进特征的跟踪器，通过自监督损失和正则化的组合实现端到端训练，并在已知基准测试中取得了最先进的结果；DINO-Tracker 在长期遮挡跟踪的挑战性案例中显著优于自监督方法，而且在竞争中超越了最先进的监督跟踪器。

Mar, 2024

自监督学习中使用变换器和自蒸馏的旋转不变三维点集特征

这篇论文提出了一种自我监督学习框架，用于从大量无标签的三维点集中学习准确且旋转不变的三维特征，通过分解输入的三维点集成多个全局尺度的区域，使用自注意机制优化这些区域，并将它们聚合成每个三维点集的表达性旋转不变特征。该框架使用自我蒸馏方法生成伪标签进行训练，同时结合多裁剪和切割混合的数据增强技术来增加训练数据的多样性。通过全面的评估，实验证明目前针对有监督学习设计的旋转不变深度神经网络结构在自我监督学习场景下不一定能够学习到准确的三维形状特征，而我们提出的算法学习到的旋转不变的三维点集特征比现有算法更准确。

Aug, 2023

使用归一化切割的自监督 Transformers 进行无监督目标发现

本文提出了一种基于自监督学习训练的 Transformer 模型特征的基于图的对象发现方法，在图中进行规范化的图割以分组具有相似性区域的前景物体。该方法可以显著提高无监督对象发现的性能，也可以扩展到无监督凸显性检测和弱监督对象检测领域。

Feb, 2022

Mask DINO: 基于 Transformer 的统一物体检测与分割框架

这篇论文介绍了 Mask DINO，一种统一的物体检测和分割框架，能够通过 DOT product 技术预测出一组二进制掩模，进行各种图像分割任务（实例、全景和语义）。它能够从联合大规模检测和分割数据集中获益，并且显示了卓越的性能优势。

Jun, 2022

时域 DINO: 提升动作预测的自监督视频策略

研究论文介绍了一种新颖的自监督视频策略，通过 Temporal-DINO 方法在行动预测方面取得了显著改进，提高了背景骨干网络捕捉长期依赖性的能力。

Aug, 2023

利用深层 ViT 特征作为密集的视觉描述符

本文研究使用预训练的 Vision Transformer (ViT) 提取的深度特征作为密集的视觉描述符，提出了基于无监督 DINO-ViT 模型提取特征的简单方法，可用于各种领域的相关应用，包括共分割、语义对应等。经过大量定量和定性分析得出了符合竞争性的结果，并且较之前的无监督方法有了很大的提高。

Dec, 2021

CLIP-DINOiser: 教授 CLIP 一些 DINO 的技巧

我们提出了一种零样本开放词汇语义分割方法，无需任何注释，通过从自监督特征中提取出的定位先验来局部改进密集的 MaskCLIP 特征，从而显著提升 MaskCLIP 的性能并产生平滑的输出。

Dec, 2023

被注意力背叛：一种简洁而有效的自监督视频对象分割方法

我们提出了一个简单而有效的方法来进行自监督视频对象分割 (VOS)。我们的关键观点是，DINO 预训练的 Transformer 中具有的固有结构依赖性可以用于建立视频中的稳健时空对应关系。此外，利用这种对应线索进行简单的聚类就足以产生具有竞争力的分割结果。我们开发了一个简化的架构来应对这些挑战，利用 DINO 预训练的 Transformer 中新兴的对象性，避免了使用额外的多模态或槽关注的需要。我们的方法在多个无监督 VOS 基准测试中展示了最先进的性能，特别在复杂的现实世界多对象视频分割任务中表现出色，如 DAVIS-17-Unsupervised 和 YouTube-VIS-19。

Nov, 2023

密集连体网络用于密集无监督学习

本论文提出了 Dense Siamese Network（DenseSiam），这是一种针对密集预测任务的简单的无监督学习框架，通过最大化图像两个视图之间的相似性（包括像素和区域一致性），学习视觉特征表示，并证明了其在图像分类和语义分割任务中的有效性。

Mar, 2022

通过 DINO 语义引导的可变形一次性人脸风格化

该论文探讨了一次性人脸风格化的复杂问题，通过利用自监督视觉转换器和适应 StyleGAN 生成器进行精细调整，实现了在结构上具有鲁棒性和一致性的面部风格化，达到了显著的效率优势。

Mar, 2024