multi-object understanding | BriefGPT

关键词multi-object understanding

搜索结果 - 1

从单幅图像理解 3D 物体交互
本文提出一种基于 Transformer 的模型以实现机器的多物体理解，物体控制及 3D 场景探索，主要方法为预测物体的 3D 位置，物理属性及可访问性，通过自己收集和验证数据集来证明该模型对网络视频，比如第一人称视角视频和室内图像产生较好
PDFa year ago