T3VIP: 基于变换的三维视频预测

Sep, 2022

T3VIP: Transformation-based 3D Video Prediction

Iman Nematollahi, Erick Rosete-Beas, Seyed Mahdi B. Azad, Raghu Rajan, Frank Hutter...

TL;DR为了实现机器人的自主技能获取，本文提出了一种基于转化的 3D 视频预测（T3VIP）方法，通过将场景分解为其对象部件并预测其相应的刚性变换，从自身的过去经验中明确地模拟 3D 运动，预测未来的可行结果，并具备自适应超参数优化技术，是首个提供固定摄像头的 RGB-D 视频预测的生成模型。

Abstract

For autonomous skill acquisition, robots have to learn about the physical rules governing the 3D world dynamics from their own past experience to predict and reason about plausible future outcomes. To this end, we propose a transformation-based →

autonomous skill acquisition 3d video prediction object parts decomposition hyperparameter optimization generative model

发现论文，激发创造

ViP3D：通过三维智能体查询实现端到端的视觉轨迹预测

本文提出了 ViP3D，这是一种基于查询的可视化轨迹预测管道，利用原始视频中的丰富信息来预测场景中代理的未来轨迹。该方法在 nuScenes 数据集上的实验结果表明 ViP3D 相较于传统管道和以前的端到端模型表现更好。

Aug, 2022

从视频预测三维人体动态

本篇论文提出了一种可以根据过去的视频输入，预测人体未来三维网格模型序列的方法，通过引入自回归模型在中间潜在空间上进行预测，有效地促进了自回归预测。

Aug, 2019

3D-MVP：用于机器人操纵的三维多视角预训练

提出了 3D-MVP，一种使用遮罩自编码器进行 3D 多视图预训练的新方法，通过在大规模 3D 数据集上使用遮罩自编码器对其视觉编码器进行预训练，评估了其在虚拟机器人操作任务中的性能并展示了超过基线的改进，同时在实际机器人平台上也取得了令人期待的结果。

Jun, 2024

Act3D: 用于机器人操作的无限分辨率动作检测变压器

本文提出的 Manupulation 策略 Transformer Act3D，将 6DoF 关键点预测作为自适应空间计算的 3D 检测操作，取得 RLbench 操作测试中最佳效果。

Jun, 2023

XVTP3D：自动驾驶的跨视图轨迹预测，使用共享的 3D 查询

使用共享的 3D 查询（XVTP3D）进行交叉视图轨迹预测，通过随机蒙版方法和粗到细的跨视图注意力捕捉稳健的跨视图特征，提高了自动驾驶中的多模态轨迹预测表现。

Aug, 2023

从 RGB-D 视频中学习基于粒子的 3D 模拟器

通过视觉粒子动力学以及端到端学习的方式，我们提出了一种从观测数据中直接学习模拟器的方法，避免了对特殊的信息的依赖，从而实现更加真实可信的仿真。这一方法的 3D 结构使得场景编辑和长期预测成为可能，为视频编辑和机器人规划等应用提供了新的路径。

Dec, 2023

基于视觉的三视角视图的 3D 语义占用预测

采用鸟瞰图（BEV）描述自动驾驶中的三维场景难以描绘细粒度的三维结构，因此我们提出了三面图（TPV）表示法，并使用基于注意力机制的 TPV 编码器实现了显著的提升。模型可以通过稀疏监督有效预测语义占用，仅使用相机输入在 LiDAR 分割任务上可实现与基于 LiDAR 的方法相当的性能。

Feb, 2023

S2TPVFormer：时空三视角视图用于具有时间一致性的 3D 语义占据预测

本研究针对自主驾驶系统中对三维场景的整体理解和推理的重要性展开研究，将三维语义占据预测作为自主驾驶和机器人下游任务的预训练任务，与三维检测等方法相比，它更准确地捕捉了三维细节。现有方法主要关注空间线索，而忽视了时间线索。基于查询的方法常常使用计算密集的体素表示对三维场景信息进行编码。本研究介绍了 S2TPVFormer，它是 TPVFormer 的扩展，利用时空变换器结构进行一致的三维语义占据预测。强调了时空线索在三维场景感知中的重要性，特别是在三维语义占据预测中，我们的工作探索了较少研究的时间线索领域。通过利用三视角视图（Tri-Perspective View，简称 TPV）表示，我们的时空编码器生成具有时间上下文的嵌入，提高了预测的一致性，同时保持了计算效率。为了实现这一点，我们提出了一种新颖的时空跨视图混合注意机制（Temporal Cross-View Hybrid Attention，简称 TCVHA），促进了 TPV 视图之间的有效时空信息交流。对 nuScenes 数据集的实验评估表明，与 TPVFormer 相比，提出的 S2TPVFormer 在三维语义占据上取得了 3.1% 的平均交集联合（mIoU）改进，验证了其提高三维场景感知效果的有效性。

Jan, 2024

视频场景理解的概率未来预测

本文提出了一种新颖的深度学习架构，用于从视频中进行概率未来预测。该模型可以预测城市场景中的未来语义、几何和运动，并将此表示用于控制自动驾驶车辆。

Mar, 2020

从视频中学习三维人体动力学

通过观察人类运动的视觉序列，我们可以轻松猜测人在过去和未来的 3D 运动。我们提出了一个可以学习人类 3D 动力学表示的框架，通过简单而有效的图像特征时间编码。在测试过程中，学习到的时空表示能够预测具有平稳性的 3D 网格。我们的模型可以从单个图像中恢复当前的 3D 网格以及它未来和过去的 3D 运动，同时也可以通过半监督学习从带有 2D 姿态标注的自然视频中学习。我们通过对来自互联网海量未标记数据的模型训练，通过已有的 2D 姿态检测器得到伪基础真值 2D 姿态，证明了我们的模型可以自举学习并在三维动作预测任务中获得最新的性能。

Dec, 2018