DEMOS: 动态环境中基于局部球面 - BEV 感知的 3D 场景动作合成

Mar, 2024

DEMOS: 动态环境中基于局部球面 - BEV 感知的 3D 场景动作合成

DEMOS: Dynamic Environment Motion Synthesis in 3D Scenes via Local Spherical-BEV Perception

Jingyu Gong, Min Wang, Wentao Liu, Chen Qian, Zhizhong Zhang...

TL;DR该研究提出了第一个动态环境动作合成框架（DEMOS），通过预测当前场景来即时预测未来动作，并用其动态更新潜在动作，从而在处理动态环境时取得了显著的性能优势。

Abstract

motion synthesis in real-world 3d scenes has recently attracted much attention. However, the static environment assumption made by most current methods usually cannot be satisfied especially for real-time

motion synthesis dynamic environment latent motion scene prediction 3d scenes

发现论文，激发创造

DynamicBEV: 利用动态查询和时间上下文进行三维物体检测

动态 BEV（Bird's Eye View）是一种新的查询方法，利用动态查询和动态场景下的聚类以及注意力机制，有效地从局部和远距离特征中聚合信息，实现对复杂场景的迭代适应，进而提高三维物体检测的效率和性能，从而在查询式 BEV 物体检测领域取得了划时代的突破。

Oct, 2023

用立体视觉进行语义化三维物体和自我运动跟踪，用于自动驾驶

本文提出了一种基于立体视觉的方法，用于在动态自动驾驶情景下跟踪摄像机姿态和三维语义对象，该方法使用易于标注的二维检测和离散视点分类结合轻量级语义推理方法获取粗略的三维物体测量，并基于当前的物体感知相机姿态跟踪实现物体位置的估计与 3D 建模以获得精确度和时间一致性。

Jul, 2018

建模环境场景动态以进行自由视角合成

我们介绍了一种新颖的方法，可以从单目捕捉中进行动态自由视图合成，为观看体验带来沉浸感。我们的方法基于对复杂静态场景进行忠实重建的 3D 高斯点插值（3DGS）的最新进展。通过利用环境动力学的周期性来学习运动轨迹模型，并结合谨慎的正则化来克服以往将 3DGS 扩展到表示动态时遇到的局限性，这些局限性包括仅适用于有界场景或需要多摄像机捕捉，并且通常无法推广到未见过的运动，限制了它们的实际应用。我们还提出了一些重要的实用策略，以提高基线 3DGS 静态重建的视觉质量，并提高 GPU 内存密集学习的内存效率，展示了多个环境自然场景的高质量照片逼真的新视图合成，其中包含复杂的纹理和精细的结构元素。

Jun, 2024

在 3D 室内场景中合成多样的人体动作

提出了一种基于强化学习的方法来处理 3D 室内场景中虚拟人类与环境以及物体的交互，包括生成运动模型、创新的碰撞回避奖励函数、基于标记体和半径场的交互感知奖励函数以及训练策略等多个方面，实验结果表明，该方法在运动的自然性和多样性方面都优于现有的人 - 场景交互综合框架。

May, 2023

任意运动侦测器：从一系列 LiDAR 点云学习无类别场景动态

本文提出了一种新的实时方法，基于三维点云序列，采用时间上下文聚合实现动态检测和运动参数估计，可适用于自动驾驶车辆在复杂城市环境下进行安全导航，不仅可以估计车辆或行人等常见道路参与者的运动，还可推广到其他没有在训练数据中出现的物体类别，并对不同的时间上下文聚合策略进行了深入的分析，提供了我们最先进模型与 KITTI 场景流数据集上现有解决方案的比较结果。

Apr, 2020

随机场景感知运动预测

该研究提出了一种新的数据驱动的、随机的运动综合方法 SAMP，该方法可以模拟在杂乱场景中表现不同风格的行为，通过训练 MoCap 数据可以实现优秀的表现。

Aug, 2021

面向场景的动态预测知识转移

通过对视频场景内容及动态规律、语义等方面的先验知识进行分析和预处理，提出一种利用贝叶斯网络解决视频不同场景中的移动轨迹问题的方法，并在实验中证明了其有效性。

Mar, 2016

Total-Recon：嵌入式视角合成的可变形场景重建

本文提出了 Total-Recon 方法，用于从长时间单目 RGBD 视频中重建变形场景并进行自由视点合成，通过场景运动层次分解，实现了快速高效的实现，并最终超越以往的方法。

Apr, 2023

BEVStereo++：通过动态时间立体视觉，在多视角 3D 物体检测中准确估计深度

提出了一个基于动态时间立体视觉策略的 3D 物体检测框架 BEVStereo++, 并通过使用运动补偿模块和长序列帧融合方法，实现了在 Waymo 和 nuScenes 数据集上的最先进表现 (SOTA)。

Apr, 2023

高斯预测：用于运动外插和自由视点合成的动态三维高斯预测

使用 GaussianPrediction 框架，结合 3D Gaussian 表示法、动态场景建模和未来场景合成等技术，实现对动态环境中未来状态的预测和渲染。

May, 2024