本文针对单张图像相机标定提出了一种基于端到端神经网络的方法 - Camera calibration TRansformer with Line-Classification (CTRL-C),采用 Transformer 架构有效提取全局几何信息,并辅以线分类任务训练网络,实验表明该方法在 Google Street View 和 SUN360 benchmark 数据集上超越了现有最优方法。
本研究提出了一种基于两个阶段的框架,通过从单个图像中估计相机姿态来预测 3D 车道,使用辅助的 3D 车道任务和几何约束来获得多任务学习的好处,增强 3D 和 2D 之间的一致性和在这两个任务之间的兼容性,在没有地面真值相机姿态的情况下,我们的方法胜过基于完美相机姿态的最先进方法,并且具有最少的参数和计算量。
我们提出了一种联合 3D 姿态和焦距估计方法,采用深度学习技术和几何算法,通过将焦距明确地估计和整合到 3D 姿态估计中来实现对野外物体类别的姿态和焦距估计,并在 Pix3D、Comp 和 Stanford 三个具有不同物体类别的具有挑战性的真实世界数据集上进行了详细的评估,结果在多个指标上明显优于现有方法。