May, 2023

自监督视觉 Transformer 用于新颖目标的 3D 姿态估计

TL;DR本研究评估和展示了使用对比学习来训练深度模板匹配的自监督 CNNs 和 Vision Transformers 之间的差异。结果表明,Vision Transformers 在匹配准确度方面优于 CNNs,并且对于某些情况,预训练的 Vision Transformers 并不需要微调。此外,我们还强调了比较这两种网络进行深度模板匹配时的优化和网络结构差异。