May, 2023

从单幅图像理解 3D 物体交互

TL;DR本文提出一种基于 Transformer 的模型以实现机器的多物体理解,物体控制及 3D 场景探索,主要方法为预测物体的 3D 位置,物理属性及可访问性,通过自己收集和验证数据集来证明该模型对网络视频,比如第一人称视角视频和室内图像产生较好泛化能力。