ECCVMar, 2022

RayTran:基于光线追踪变换器的多物体视频姿态估计和形状重建

TL;DR提出了一种基于 Transformer 的神经网络体系结构,用于从 RGB 视频进行多物体 3D 重建和检测,通过全局 3D feature 网格和特定于视图的 2D 网格交替表示其知识,利用关于图像形成过程的知识来显着减少注意力权重,附加 DETR 风格的头部进行对象检测并预测其 3D 姿态和形状。该架构是单级、端到端可训练的,并且可以从多个视频帧全面地推理场景。在 Scan2CAD 数据集上展示了比其他方法更好的性能。