扩展结构提高视频识别效率的 X3D

CVPRApr, 2020

X3D: Expanding Architectures for Efficient Video Recognition

Christoph Feichtenhofer

TL;DR本文提出了 X3D，一个高效的视频网络家族，可沿多个网络轴（在空间、时间、宽度和深度方面）逐步扩展微小的 2D 图像分类架构。采用类似于机器学习中的特征选择方法的简单逐步网络扩展方法，在每个步骤中扩展单个轴，从而实现对于复杂性的良好准确性权衡。通过向前递推扩展和向后收缩，将 X3D 扩展到特定目标复杂性。与以前的工作相比，X3D 实现了最先进的性能，同时需要较少的乘加和参数。我们最令人惊讶的发现是，具有高空间时间分辨率的网络可以表现出色，同时在网络宽度和参数方面非常轻量化。我们在视频分类和检测基准测试上报告了具有竞争力的准确性，代码将可在此 https URL 上获得。

Abstract

This paper presents x3d, a family of efficient video networks that progressively expand a tiny 2D image classification architecture along multiple network axes, in space, time, width and depth. Inspired by featur

x3d video networks machine learning accuracy spatiotemporal resolution

发现论文，激发创造

Compress3D：来自单张图像的 3D 生成的压缩潜空间

通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间，本文提出了一种有效压缩 3D 几何和纹理信息的方法，并引入了 3D 感知交叉注意机制，从高分辨率的 3D 特征体积中查询特征，提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件，通过扩散先验模型估计形状嵌入，实现了优于现有算法的性能，且仅在单个 A100 GPU 上耗时 7 秒。

Mar, 2024

从单视角视频快速动态生成三维物体

提出了一种高效的视频到 4D 对象生成框架 Efficient4D，能够在连续的摄像机轨迹下实时渲染高质量的时空一致图像，通过直接训练具有明确点云几何结构的新颖 4D 高斯涂层模型，大大提升了速度，同时保持创新视角合成质量。

Jan, 2024

VFusion3D: 从视频扩散模型中学习可扩展的三维生成模型

本论文提出了一种利用预训练视频扩散模型构建可扩展的 3D 生成模型的新范例。通过使用视频扩散模型作为 3D 数据的知识源，通过微调其多视图生成能力，生成一个大规模的合成多视图数据集，从而训练出一个前馈的 3D 生成模型。该模型在近 300 万个合成多视图数据上训练，能够在几秒钟内从单张图像生成一个 3D 资源，并在与当前最先进的前馈 3D 生成模型相比取得了更好的性能，用户 70％的时间更喜欢我们的结果。

Mar, 2024

学习生成定制的动态三维面部表情

本文研究应用深度学习技术将单张静态图片转化为逼真的三维动画，重点探究四维面部表情的生成。作者运用一种称为深度网格编码器 - 解码器的技术，结合表情识别模型，以高分辨率的四维扫描数据集为基础，成功地实现了对面部表情的高度逼真合成，且具有较好地泛化能力。该研究是首次尝试解决四维面部表情合成的问题。

Jul, 2020

V3D：视频扩散模型是有效的 3D 生成器

基于视频扩散模型和几何一致性先验的自动生成方法在 3D 生成方面取得了很大突破，能够生成高质量的网格和 3D 高斯帧，并且在场景级别的新视角合成方面取得了优越的性能表现。

Mar, 2024

R3D3: 多相机下动态场景的稠密三维重建

提出了一种多摄像机系统来实现密集的三维重建和自我运动估计，通过多摄像机间的几何估计和单目深度优化来获得鲁棒的几何深度和姿态估计，同时通过深度优化网络引入可学习的场景先验，从而在具有挑战性的动态室外环境中实现了稠密、一致的三维重建。

Aug, 2023

从单个视角深度学习的全 3D 物体补全

通过结合深度卷积神经网络体系结构和自编码器，从深度图中隐含学习 3D 几何特征，大大提高了新方法的重建准确度，并使其适用于实时应用。

Aug, 2018

Direct3D：基于 3D 潜在扩散变换的可扩展图像到 3D 生成

从文本和图像生成高质量的 3D 模型一直是具有挑战性的，本文介绍了一种直接的 3D 生成模型 (Direct3D)，它可以缩放到野外输入图像，而不需要多视图扩散模型或 SDS 优化。我们的方法包括两个主要组成部分：一个直接的 3D 变分自动编码器 (D3D-VAE) 和一个直接的 3D 扩散变换器 (D3D-DiT)。D3D-VAE 将高分辨率的 3D 形状高效编码成紧凑连续的潜在三平面空间，而我们的方法通过半连续表面采样策略直接监督解码几何形状，与以往依赖渲染图像作为监督信号的方法不同。D3D-DiT 对编码的 3D 潜在分布进行建模，并特别设计以融合三个特征图的位置信息，从而实现了可扩展到大规模 3D 数据集的原生 3D 生成模型。此外，我们引入了一种创新的从图像到 3D 的生成流程，结合语义和像素级图像条件，使模型能够生成与提供的条件图像一致的 3D 模型。大量实验证明，我们大规模预训练的 Direct3D 相对于以前的图像到 3D 方法具有更好的生成质量和泛化能力，从而树立了 3D 内容创建的新的最先进水平。

May, 2024

ImageNet 的 3D 生成

本文提出了一种基于 3D GAN 的 3D 生成器，采用了不同于以往的数据假设、深度框架和相机模型，在多样化数据集（如 ImageNet）上取得了优于现有技术的纹理和几何质量的结果。

Mar, 2023

G3DR：ImageNet 中的生成式 3D 重建

我们介绍了一种新颖的 3D 生成方法，Generative 3D Reconstruction (G3DR) in ImageNet，能够从单个图像中生成多样且高质量的 3D 物体，解决了现有方法的局限性。我们的框架核心是一种新颖的深度正则化技术，能够实现高几何保真度的场景生成。G3DR 还利用预训练的语言 - 视觉模型，如 CLIP，实现对新视角的重构，提升生成物体的视觉真实感。此外，G3DR 设计了简单但有效的采样过程，进一步提高生成的质量。G3DR 基于类别或文本条件提供多样且高效的 3D 资产生成。尽管 G3DR 十分简单，但在感知度量上，它能够胜过业界先进的方法，在几何评分上提高了 90% 并在感知度量上提高了 22%，同时只需一半的训练时间。代码可在此 https URL 找到。

Mar, 2024