We propose a novel idea for depth estimation from multi-view image-pose
pairs, where the model has capability to leverage information from previous
latent-space encodings of the scene. This model uses pairs of im
提出了一种视角不变的模型,用于从单个深度图像中估计 3D 人体姿态,该模型从一个学习的视角不变特征空间中嵌入局部区域来实现,并采用自下而上的误差反馈机制进行姿态估计,多任务的学习方法可以在噪声和遮挡的情况下选择性地预测局部姿态。通过对一个先前发布的深度数据集和一个包含 10 万个注释深度图像的新收集的人体姿态数据集的评估,实验证明该模型在正面视图上实现了竞争性性能,在替代视角上实现了最先进的性能。
本文介绍了一种利用深度神经网络复制传统的 local depth maps calculation 和 global depth maps fusion 两步骤框架,以改善对 3D 场景重建精度和可解释性的计算机视觉任务方法。此外,作者还提出了一种称为 PosedConv 的旋转不变的 3D 卷积核,用于提高从非常不同视角获取的图像之间的匹配效率。作者在 ScanNet 数据集上进行了大量实验证明提出的方法在深度神经网络和传统计算机视觉技术中具有竞争力。