Sparse4D v2：带稀疏模型的循环时间融合

May, 2023

Sparse4D v2：带稀疏模型的循环时间融合

Sparse4D v2: Recurrent Temporal Fusion with Sparse Model

Xuewu Lin, Tianwei Lin, Zixiang Pei, Lichao Huang, Zhizhong Su

TL;DR本文提出了 Sparse4Dv2 算法，通过在时间融合模块中实现一种递归形式的多帧特征采样来提高性能，并达到了 nuScenes 3D 检测基准的最佳结果。

Abstract

sparse algorithms offer great flexibility for multi-view temporal perception tasks. In this paper, we present an enhanced version of Sparse4D, in which we improve the →

sparse algorithms temporal perception temporal fusion feature sampling 3d detection

发现论文，激发创造

稀疏融合：高效稀疏多模态融合框架用于远程三维感知

SparseFusion 是一种基于稀疏三维特征构建的新型多模态融合框架，能够有效实现远程感知，并在长程 3D 感知任务和时间目标检测任务中取得了最优的性能。

Mar, 2024

Sparse4D v3：推进端到端三维检测与跟踪

该研究论文提出了在自动驾驶感知系统中进行 3D 检测和跟踪的两个基本任务，并引入了两个辅助训练任务（时间实例去噪和质量估计）以及提出了解耦的注意力机制来进行结构上的改进，从而显著提高了检测性能。此外，我们还使用一种直接的方法将检测器扩展为跟踪器，在推断过程中分配实例 ID，进一步突显了基于查询的算法的优势。在 nuScenes 基准测试上进行了大量实验，验证了所提出改进的有效性。在以 ResNet50 为主干网络的情况下，我们观察到 mAP、NDS 和 AMOTA 分别提高了 3.0％、2.2％和 7.6％，分别达到了 46.9％、56.1％和 49.0％。我们的最佳模型在 nuScenes 测试集上达到了 71.9％的 NDS 和 67.7％的 AMOTA。代码将在 https://github.com/linxuewu/Sparse4D 上发布。

Nov, 2023

3D 物体检测的稀疏稠密融合

本文提出 Sparse Dense Fusion（SDF）框架，通过 Transformer 融合了稀疏融合和密集融合模块，同时丰富了语义纹理和利用了空间结构信息，相比基线提高了 4.3% 的 mAP 和 2.5% 的 NDS，在 nuScenes 基准测试中排名第一。

Apr, 2023

复杂动态场景的时空一致性四维重建

本文介绍了一种重建 4D 时间连续场景模型的方法，该方法使用多个移动相机进行重建，可以重建动态或静态物体，同时将稀疏 - 稠密时序对应与联合多视角分割和重建结合使用，利用时间上的连续性克服了视觉歧义，并通过引入测地线星凸性的约束实现了具有鲁棒性的动态物体分割和重建。

Mar, 2016

4D 时空卷积神经网络：Minkowski 卷积神经网络

使用 4D 卷积神经网络，通过稀疏张量和广义稀疏卷积提供的广泛高维函数，实现了针对 3D 视频的时空感知，并通过提出的混合核和三边静态条件随机场，优化了 7D 时空色度空间中的一致性问题。实验表明，与 2D 或 2D-3D 混合方法相比，只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外，我们还表明，在处理 3D 视频时，4D 时空卷积神经网络不仅更加鲁棒，而且有时比 3D 卷积神经网络更快。

Apr, 2019

递归融合与可变形时空注意力在视频压缩伪影减少中的应用

本文提出了一种基于深度学习的视频还原方法，其采用递归融合模块和可变形时空注意力模块进行补偿，从而提高了众多现有算法在 MFQE 2.0 数据集上的还原质量。

Aug, 2021

SLS4D：用于 4D 新视角合成的稀疏潜空间

使用可学习的稀疏潜空间（即 SLS4D）来表示 4D 场景，其中动态 NeRFs 无法捕捉全局动态并产生重参数的模型。使用稠密可学习的时间槽特征描述时间空间，通过线性多层感知器预测任何时间点的 3D 位置的位移，然后使用另一个稀疏潜空间学习 3D 位置的空间特征，通过注意机制学习每个潜代码的自适应权重。实验证明了我们的 SLS4D 方法的有效性，仅利用最新工作的约 6% 的参数实现了最佳的 4D 新视角综合效果。

Dec, 2023

STAG4D：空间 - 时间定位生成的 4D 高斯

在本研究中，我们提出了 STAG4D，这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架，用于高保真度的 4D 生成，通过利用多视图扩散模型初始化输入视频帧上的多视图图像，以确保多视图序列初始化的时间一致性，并应用得分蒸馏采样来优化 4D 高斯点云。

Mar, 2024

SC4D：稀疏控制的视频到 4D 生成和运动转换

提出了一种高效的稀疏控制视频到 4D 框架 (SC4D)，通过解耦动作和外观，实现了 superior 的视频到 4D 生成，并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题，确保了学习的动作和形状的准确性，实验证明该方法在质量和效率方面优于现有方法，并且通过对运动和外观进行解耦，我们设计了一种新的应用，根据文本描述将学习到的运动无缝传输到各种 4D 实体。

Apr, 2024

4Diffusion: 多视角视频扩散模型的 4D 生成

我们提出了一种新颖的 4D 生成管道，名为 4Diffusion，旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合，我们设计了一个为多视图视频生成量身定制的统一扩散模型，以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练，我们的扩散模型获得了合理的时间一致性，并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后，我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失，以优化由动态 NeRF 参数化的 4D 表示，从而消除多个扩散模型引起的差异，实现生成空间时间一致的 4D 内容。此外，我们设计了一个锚点损失，以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明，我们的方法相比之前的方法具有更好的性能。

May, 2024