Aug, 2022
MonoViT:基于视觉 Transformer 的自监督单目深度估计
MonoViT: Self-Supervised Monocular Depth Estimation with a Vision Transformer
Chaoqiang Zhao, Youmin Zhang, Matteo Poggi, Fabio Tosi, Xianda Guo...
TL;DR提出了一种新的基于 Vision Transformers(ViTs)和自监督单眼深度估计的框架 MonoViT,通过结合普通卷积和 Transformer 模型,能够在局部和全局推理,可以更准确地预测深度,达到了更高水平的性能,证明比其他数据集具有更好的泛化能力。