基于参考的三元面 3D 感知图像编辑
该论文介绍了一种基于三平面表示的实时方法,该方法直接利用编码器进行潜在编码,并将其扩展为三平面数值偏移的全卷积预测器,从而弥合了当今用于高质量变形和重新渲染存在的方法之间的差距。
Mar, 2023
我们提出了一种新颖的无条件视频生成模型,旨在解决长期的空间和时间依赖关系。通过使用混合的显式隐式三平面表示法和单一潜变量模型整个视频序列,我们的方法捕捉这些依赖关系。通过从主要潜变量推导出的中间三平面表示,合成单个视频帧。这种新颖策略通过 FLOPs 测量将计算复杂性降低了 2 倍。因此,我们的方法方便了高效的时间连贯视频生成。此外,与自回归方法相比,我们的联合帧建模方法减少了视觉伪影的生成。通过在基于生成对抗网络(GAN)的生成器架构中集成基于光流的模块,我们进一步增强了模型的能力,从而弥补了较小生成器大小所施加的约束。因此,我们的模型能够以 256x256 像素分辨率合成超过 5 秒 30 帧的高保真视频片段。通过定性和定量评估,我们在包含合成和真实视频片段的三个不同数据集上对我们方法的有效性和多功能性进行了验证。
Jan, 2024
从多样且非结构化的 Imagenet 数据集中,我们提出了一种从二维图像中重建三维几何模型的方法,使用高效的三平面表示法学习三维模型,并基于 StyleGAN2 的生成器架构对高度多样化的数据集进行调整,通过多视点辨别防止模式崩溃并提升训练稳定性。
Jan, 2024
为了实现快速的文本到 3D 生成,本文提出了 Triplane Attention for text-guided 3D generation (TPA3D),一种基于端到端可训练 GAN 模型。通过对提取的句子和单词级文本特征进行注意力机制,TPA3D 能够生成与细粒度描述相对应的高质量 3D 纹理形状,并呈现出令人印象深刻的计算效率。
Dec, 2023
提出了 SYM3D,一种新颖的 3D-aware GAN,通过利用自然和人造物体中普遍存在的反射对称结构,结合提出的视角感知空间注意机制来学习三维表示,从而在只使用单视图图像进行训练时捕捉详细的几何和纹理,同时证明了在文本到三维任务中利用对称性正则化有助于减少模型中的伪影。
Jun, 2024
本文探讨了生成对抗网络 (GANs),将神经隐式表示与时间感知区别器相结合,发展了一种 GAN 框架,仅用单目视频合成了 3D 视频,能够学习可分解的 3D 结构和运动的丰富嵌入,实现了新的时空渲染视觉效果,同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。
Jun, 2022
本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型,通过纯噪声、文本和参考图像等多种条件输入,在 3D 生成对抗网络(GANs)的潜在空间中深入研究并提出解缠特性较好的生成策略,同时采用统一框架进行灵活的图像生成和编辑任务,实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明,该方法在图像生成和编辑方面在质量和数量上均优于替代方法。
Mar, 2024
通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间,本文提出了一种有效压缩 3D 几何和纹理信息的方法,并引入了 3D 感知交叉注意机制,从高分辨率的 3D 特征体积中查询特征,提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件,通过扩散先验模型估计形状嵌入,实现了优于现有算法的性能,且仅在单个 A100 GPU 上耗时 7 秒。
Mar, 2024
使用单视角 2D 照片集合进行高质量多视角一致的图片和 3D 形状的非监督生成一直是一个难题,本文提出了一种混合显式 - 隐式网络架构,用于提高 3D GANs 的计算效率和图像质量,实现了高分辨率实时多视角一致的图像合成,同时产生高质量的 3D 几何体。
Dec, 2021
我们提出了一种新的方法,通过 2D 图像集合生成具有精细几何形状且视角一致的逼真图像。我们的方法使用一个名为 OrthoPlanes 的混合显式 - 隐式表示,它在功能图中编码了细粒度的 3D 信息,并通过修改 2D StyleGANs 可以高效地生成。与以前的表示相比,我们的方法具有更好的可伸缩性和表达能力,提供明确和显式的信息。因此,我们的方法可以处理更具挑战性的视角,并合成具有高度空间自由度的关节对象。实验证明,我们的方法在 FFHQ 和 SHHQ 数据集上在定量和定性上都达到了最先进的结果。项目页面:https://orthoplanes.github.io/。
Sep, 2023