自监督视觉 Transformer 用于新颖目标的 3D 姿态估计

May, 2023

自监督视觉 Transformer 用于新颖目标的 3D 姿态估计

Self-supervised Vision Transformers for 3D Pose Estimation of Novel Objects

Stefan Thalhammer, Jean-Baptiste Weibel, Markus Vincze, Jose Garcia-Rodriguez

TL;DR本研究评估和展示了使用对比学习来训练深度模板匹配的自监督 CNNs 和 Vision Transformers 之间的差异。结果表明，Vision Transformers 在匹配准确度方面优于 CNNs，并且对于某些情况，预训练的 Vision Transformers 并不需要微调。此外，我们还强调了比较这两种网络进行深度模板匹配时的优化和网络结构差异。

Abstract

object pose estimation is important for object manipulation and scene understanding. In order to improve the general applicability of pose estimators, recent research focuses on providing estimates for novel objects, that is objects unseen during training. Such works use →

object pose estimation vision transformers deep template matching contrastive learning cnn

发现论文，激发创造

ZS6D: 使用视觉变换器进行零样本 6D 物体姿态估计

通过使用预训练的 Vision Transformers（ViT）提取的视觉描述符，我们引入了 ZS6D 方法，用于零样本新目标 6D 姿态估计，该方法在众多最新的姿态估计方法上表现卓越，无需进行特定任务的微调。我们在 LMO、YCBV 和 TLESS 等三个数据集上进行了实验，并与两种方法进行了比较，结果在所有三个数据集上相较于其中一种方法有显著提升，在两个数据集上相较于另一种方法有提升。

Sep, 2023

自监督单目深度估计中的 Transformer 模型（不考虑相机内参）

研究在自动驾驶和高级驾驶辅助系统下，使用视觉转换器作为新的方法来进行单目深度估计，在 KITTI 深度预测基准上取得了与卷积神经网络相似的性能，同时具有更强的鲁棒性和可扩展性。

Feb, 2022

使用 Vision Transformers 对检测迁移学习进行基准测试

本文提出了可用于 Mask R-CNN 的 Vision Transformer 模型的训练技术，使用五种 ViT 初始化方法进行实验比较，结果表明最近基于遮蔽的无监督学习方法可能是首次在 COCO 数据集上提供了令人信服的转移学习改进，随着模型大小的增加，这些基于遮蔽的初始化方法具有更好的可扩展性和改进性。

Nov, 2021

训练视觉 Transformer 进行图像检索

本文提出一种基于变换器的图像检索方法，通过采用视觉变换器生成图像描述符并使用度量学习目标进行训练，结合对比损失和微分熵正则化，相比于卷积方法，提高了图像检索性能，特别是对于短向量表示和低分辨率图像。

Feb, 2021

探索自我监督视觉变换器用于深伪检测：一种比较分析

本研究探讨自监督预训练变换器相对于有监督预训练变换器和传统神经网络（ConvNets）在检测各种类型的深度伪造方面的有效性，重点关注其在数据有限的情况下改进泛化能力的潜力。通过使用适度的训练数据并实施部分微调，在利用自监督学习和变换器进行深度伪造检测时，我们观察到了与传统方法可比拟的适应性和通过注意机制实现的自然可解释性，且同时需要较少的计算资源。

May, 2024

基于 Transformer 的深度腹腔镜立体匹配

本文提出了一种新的混合深度立体匹配框架（HybridStereoNet），使用 Transformer 实现特征表示学习，并结合 CNN 用于代价汇聚，旨在提高立体视觉匹配精度和泛化能力。实验结果表明，与其他选项相比，本文方法收敛更快，准确率更高，能够在 Sceneflow，SCARED2019 和 dVPN 数据集上实现卓越的性能。

Jul, 2022

无监督结构光变换

我们提出了一种基于鲁棒的 Transformer 的单目 SfM 方法，能够同时预测单目像素级深度、自车的平移和旋转、相机的焦距和主点，并且通过在 KITTI 和 DDAD 数据集上的实验，展示了如何适应不同的视觉 Transformer 并将其与当代基于 CNN 的方法进行比较。我们的研究表明，虽然基于 Transformer 的架构在运行时间效率上较低，但在面对自然的破坏、非目标攻击和有目标攻击时具有可比性的性能，并且更加稳健。

Dec, 2023

基于 Transformer 的多视角三维重建

本文提出了一种名为 3D Volume Transformer（VolT）的新框架，将多视角 3D 重建转化成了序列到序列的预测问题，并使用 self-attention 来探索多个无序输入之间的视图关系。在大规模 3D 重建基准数据集 ShapeNet 上，我们的方法比其他基于 CNN 的方法使用更少的参数（减少了 70%），实现了新的多视角重建的最新精度。

Mar, 2021

PoseContrast: 基于姿态感知对比学习的野外无类别物体视角估计

研究利用对已知物体类别学习到的特征来估算未知类别物体的三维姿态，提出无需 CAD 模型知识的类不可知对象视角估计的对比学习方法，实验结果表明该方法在多个数据集上具有最佳表现，包括使用 CAD 模型作为输入的方法。

May, 2021

自我监督视觉 Transformer 训练的实证研究

本文研究的是计算机视觉中的自监督学习，探究了一些基本组件对自监督 ViT 训练的影响，发现稳定性是一个重要的问题，本文通过案例研究表明了部分成果实际上是不完全的失败，并探讨了当前的积极证据、挑战和开放问题。

Apr, 2021