T3VIP: 基于变换的三维视频预测
本文提出了 ViP3D,这是一种基于查询的可视化轨迹预测管道,利用原始视频中的丰富信息来预测场景中代理的未来轨迹。该方法在 nuScenes 数据集上的实验结果表明 ViP3D 相较于传统管道和以前的端到端模型表现更好。
Aug, 2022
提出了 3D-MVP,一种使用遮罩自编码器进行 3D 多视图预训练的新方法,通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练,评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进,同时在实际机器人平台上也取得了令人期待的结果。
Jun, 2024
本文提出的 Manupulation 策略 Transformer Act3D,将 6DoF 关键点预测作为自适应空间计算的 3D 检测操作,取得 RLbench 操作测试中最佳效果。
Jun, 2023
使用共享的 3D 查询(XVTP3D)进行交叉视图轨迹预测,通过随机蒙版方法和粗到细的跨视图注意力捕捉稳健的跨视图特征,提高了自动驾驶中的多模态轨迹预测表现。
Aug, 2023
通过视觉粒子动力学以及端到端学习的方式,我们提出了一种从观测数据中直接学习模拟器的方法,避免了对特殊的信息的依赖,从而实现更加真实可信的仿真。这一方法的 3D 结构使得场景编辑和长期预测成为可能,为视频编辑和机器人规划等应用提供了新的路径。
Dec, 2023
采用鸟瞰图(BEV)描述自动驾驶中的三维场景难以描绘细粒度的三维结构,因此我们提出了三面图(TPV)表示法,并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用,仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。
Feb, 2023
本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究,将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务,与三维检测等方法相比,它更准确地捕捉了三维细节。现有方法主要关注空间线索,而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer,它是 TPVFormer 的扩展,利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性,特别是在三维语义占据预测中,我们的工作探索了较少研究的时间线索领域。通过利用三视角视图(Tri-Perspective View,简称 TPV)表示,我们的时空编码器生成具有时间上下文的嵌入,提高了预测的一致性,同时保持了计算效率。为了实现这一点,我们提出了一种新颖的时空跨视图混合注意机制(Temporal Cross-View Hybrid Attention,简称 TCVHA),促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明,与 TPVFormer 相比,提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合(mIoU)改进,验证了其提高三维场景感知效果的有效性。
Jan, 2024
通过观察人类运动的视觉序列,我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架,通过简单而有效的图像特征时间编码。在测试过程中,学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动,同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练,通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态,证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。
Dec, 2018