CVPRMar, 2021

超越图像:使用回声改善深度预测

TL;DR提出一种基于端到端深度学习的多模式融合技术,通过利用 RGB 图像、双耳回响和场景中不同物体的材料属性来改进音视频输入的场景深度估计,实验证明该方法在 Replica 数据集上比最先进的音视频深度预测方法提高了 28% 的 RMSE,并在 Matterport3D 上表现出了与竞争者相当的性能。