Aug, 2022

MonoViT:基于视觉 Transformer 的自监督单目深度估计

TL;DR提出了一种新的基于 Vision Transformers(ViTs)和自监督单眼深度估计的框架 MonoViT,通过结合普通卷积和 Transformer 模型,能够在局部和全局推理,可以更准确地预测深度,达到了更高水平的性能,证明比其他数据集具有更好的泛化能力。