Motion2VecSets: 4D 潜在向量集扩散用于非刚性形状重建与跟踪
本文提出了一种新颖的生成静态和关节 3D 资产的方法,其中核心是一个 3D 自解码器框架,将目标数据集中学习到的属性嵌入潜在空间,然后通过解码来渲染具有一致性的外观和几何体积表示;在不需要摄像头信息的情况下,通过学习来进行更加高效的训练,实现了在各种基准数据集和指标上超越同类别替代方法的影响力。
Jul, 2023
使用倾斜感应器跟踪非刚性形变场景,介绍了一种新的数据驱动方法 ——4DComplete,它可以从局部形状和运动观测中,提取 4D 时空嵌入,并使用稀疏的全卷积网络共同推断缺失的几何和运动场,并通过大规模的综合数据集 DeformingThings4D 进行网络训练,实现从部分观测中重建高分辨率的体积形状和运动场、学习纠缠的 4D 特征表示以支持形状和运动估计、比经典非刚性先验 deformation 更准确自然,并且在真实场景中推广性好。
May, 2021
该研究提出了一种名为 MotionDiff 的扩散概率模型,将人体运动的运动学视为受热的粒子,其自原始状态扩散到噪声分布。该方法通过一种自然的方式获取了 “白化” 的潜在变量,而无需任何可训练参数,证明 MotionDiff 模型在两种数据集上具有竞争力的准确性和多样性表现。
Oct, 2022
通过一次稀疏点轨迹矩阵的前向传递,我们提出了 TracksTo4D—— 一种新颖的基于深度学习的方法,用于从野外视频中推断出来自动态内容的三维结构和相机位置。
Apr, 2024
我们提出了一个通过 2D 图像数据训练的 3D 场景潜在扩散模型,首先设计了一个将多视图图像映射到 3D 高斯斑点并在同时构建这些斑点的压缩潜在表示的自编码器,然后在潜在空间上培训多视图扩散模型,以学习一种高效的生成模型。该方法不需要对象掩码或深度信息,适用于具有任意相机位置的复杂场景。我们在两个大规模复杂真实世界场景数据集 MVImgNet 和 RealEstate10K 上进行了仔细实验。与非潜在扩散模型和早期 NeRF-based 生成模型相比,我们的方法无论是从头开始,从单个输入视图开始还是从稀疏输入视图开始,都能在 0.2 秒内生成 3D 场景,并产生多样且高质量的结果,速度提高了一个数量级。
Jun, 2024
本文提出了一种新颖的潜在的 3D 扩散模型来生成神经体素场,旨在实现准确的部件感知结构。通过对现有方法的比较,我们采用了两个关键设计来确保高质量和准确的部件感知生成。一方面,我们引入了潜在的 3D 扩散过程来生成神经体素场,使其能够以显著更高的分辨率生成富有纹理和几何细节。另一方面,我们引入了部件感知的形状解码器,将部件代码整合到神经体素场中,引导准确的部件分解并产生高质量的渲染结果。通过广泛实验和与现有最先进方法的比较,我们对我们的方法在四种不同类别的数据上进行了评估。结果表明,我们提出的方法在部件感知形状生成方面具有优秀的生成能力,优于现有最先进方法。
May, 2024
Diffusion models have been utilized to generate high-quality tracking sequences through TrackDiffusion, which improves instance consistency and leads to significant improvement in multi-object tracking performance, as demonstrated on the YTVIS dataset.
Dec, 2023
提出了一种新框架,能够根据给定条件下低维空间中的形状和颜色信息的动态演化,生成连贯的 4D 序列。实验证明,该方法在生成具有颜色和 4D 网格动画的高质量 3D 形状方面具有显著优势。
Mar, 2024
通过使用多条件潜在扩散网络,该研究提出了一种重塑人体运动预测任务的方法,该任务基于给定的历史三维身体运动和当前三维场景上下文,以实现人体运动的预测。实验结果表明,该方法在真实和多样化的预测中显著优于现有技术。
May, 2024
运动扩散模型通过运动潜变量的一致性训练提高运动生成性能,使用概率流常微分方程表达扩散过程,引入量化约束优化运动潜变量表示,提出条件生成方法并节省大量时间成本,实验结果表明该模型具有最先进的性能和较低的时间成本。
May, 2024