Sparse4D v2:带稀疏模型的循环时间融合
SparseFusion 是一种基于稀疏三维特征构建的新型多模态融合框架,能够有效实现远程感知,并在长程 3D 感知任务和时间目标检测任务中取得了最优的性能。
Mar, 2024
该研究论文提出了在自动驾驶感知系统中进行 3D 检测和跟踪的两个基本任务,并引入了两个辅助训练任务(时间实例去噪和质量估计)以及提出了解耦的注意力机制来进行结构上的改进,从而显著提高了检测性能。此外,我们还使用一种直接的方法将检测器扩展为跟踪器,在推断过程中分配实例 ID,进一步突显了基于查询的算法的优势。在 nuScenes 基准测试上进行了大量实验,验证了所提出改进的有效性。在以 ResNet50 为主干网络的情况下,我们观察到 mAP、NDS 和 AMOTA 分别提高了 3.0%、2.2%和 7.6%,分别达到了 46.9%、56.1%和 49.0%。我们的最佳模型在 nuScenes 测试集上达到了 71.9%的 NDS 和 67.7%的 AMOTA。代码将在 https://github.com/linxuewu/Sparse4D 上发布。
Nov, 2023
本文提出 Sparse Dense Fusion(SDF)框架,通过 Transformer 融合了稀疏融合和密集融合模块,同时丰富了语义纹理和利用了空间结构信息,相比基线提高了 4.3% 的 mAP 和 2.5% 的 NDS,在 nuScenes 基准测试中排名第一。
Apr, 2023
本文介绍了一种重建 4D 时间连续场景模型的方法,该方法使用多个移动相机进行重建,可以重建动态或静态物体,同时将稀疏 - 稠密时序对应与联合多视角分割和重建结合使用,利用时间上的连续性克服了视觉歧义,并通过引入测地线星凸性的约束实现了具有鲁棒性的动态物体分割和重建。
Mar, 2016
使用 4D 卷积神经网络,通过稀疏张量和广义稀疏卷积提供的广泛高维函数,实现了针对 3D 视频的时空感知,并通过提出的混合核和三边静态条件随机场,优化了 7D 时空色度空间中的一致性问题。实验表明,与 2D 或 2D-3D 混合方法相比,只使用广义 3D 稀疏卷积的卷积神经网络可以获得更好的性能。此外,我们还表明,在处理 3D 视频时,4D 时空卷积神经网络不仅更加鲁棒,而且有时比 3D 卷积神经网络更快。
Apr, 2019
本文提出了一种基于深度学习的视频还原方法,其采用递归融合模块和可变形时空注意力模块进行补偿,从而提高了众多现有算法在 MFQE 2.0 数据集上的还原质量。
Aug, 2021
使用可学习的稀疏潜空间(即 SLS4D)来表示 4D 场景,其中动态 NeRFs 无法捕捉全局动态并产生重参数的模型。使用稠密可学习的时间槽特征描述时间空间,通过线性多层感知器预测任何时间点的 3D 位置的位移,然后使用另一个稀疏潜空间学习 3D 位置的空间特征,通过注意机制学习每个潜代码的自适应权重。实验证明了我们的 SLS4D 方法的有效性,仅利用最新工作的约 6% 的参数实现了最佳的 4D 新视角综合效果。
Dec, 2023
在本研究中,我们提出了 STAG4D,这是一种结合了预训练扩散模型和动态 3D 高斯雪碧的新型框架,用于高保真度的 4D 生成,通过利用多视图扩散模型初始化输入视频帧上的多视图图像,以确保多视图序列初始化的时间一致性,并应用得分蒸馏采样来优化 4D 高斯点云。
Mar, 2024
提出了一种高效的稀疏控制视频到 4D 框架 (SC4D),通过解耦动作和外观,实现了 superior 的视频到 4D 生成,并引入了自适应高斯初始化和高斯对齐损失来解决形状退化问题,确保了学习的动作和形状的准确性,实验证明该方法在质量和效率方面优于现有方法,并且通过对运动和外观进行解耦,我们设计了一种新的应用,根据文本描述将学习到的运动无缝传输到各种 4D 实体。
Apr, 2024
我们提出了一种新颖的 4D 生成管道,名为 4Diffusion,旨在从单目视频中生成空间时间一致的 4D 内容。通过将可学习的运动模块与冻结的 3D 感知扩散模型结合,我们设计了一个为多视图视频生成量身定制的统一扩散模型,以捕捉多视图空间时间相关性。通过在精心策划的数据集上训练,我们的扩散模型获得了合理的时间一致性,并固有地保留了 3D 感知扩散模型的泛化性和空间一致性。随后,我们提出了基于我们的多视图视频扩散模型的 4D 感知得分蒸馏采样损失,以优化由动态 NeRF 参数化的 4D 表示,从而消除多个扩散模型引起的差异,实现生成空间时间一致的 4D 内容。此外,我们设计了一个锚点损失,以增强外观细节并促进动态 NeRF 的学习。广泛的定性和定量实验证明,我们的方法相比之前的方法具有更好的性能。
May, 2024