Feb, 2024

CLIP 可以理解深度

TL;DR通过训练一种紧凑的卷积解码器和一个名为 mirror 的微小可学习的嵌入矩阵作为文本编码器的静态提示,本研究展示了如何通过最小的调整将视觉 - 语言基础模型(如 CLIP)的先验知识推广到学习预训练期间具有挑战性的领域,提高了单目深度估计的性能,并通过对其后续框架进行时序深度一致性和空间连续性的实验证明了所提出的方法的有效性。