基于参考的三元面 3D 感知图像编辑

Apr, 2024

基于参考的三元面 3D 感知图像编辑

Reference-Based 3D-Aware Image Editing with Triplane

Bahri Batuhan Bilecen, Yigit Yalin, Ning Yu, Aysegul Dundar

TL;DR通过对 EG3D 的三平面空间的探索和演示，本研究提供了一个集成框架，用于实现高质量的基于参考的三维感知图像编辑，并通过创新的流程在三维感知图像编辑方面呈现出独特的视角。

Abstract

generative adversarial networks (gans) have emerged as powerful tools not only for high-quality image generation but also for real image editing through manipulation of their interpretable latent spaces. Recent a

generative adversarial networks gans 3d-aware models reference-based image editing triplane space

发现论文，激发创造

TriPlaneNet: EG3D 反演编码器

该论文介绍了一种基于三平面表示的实时方法，该方法直接利用编码器进行潜在编码，并将其扩展为三平面数值偏移的全卷积预测器，从而弥合了当今用于高质量变形和重新渲染存在的方法之间的差距。

Mar, 2023

RAVEN：以高效的三层平面网络重新思考对抗性视频生成

我们提出了一种新颖的无条件视频生成模型，旨在解决长期的空间和时间依赖关系。通过使用混合的显式隐式三平面表示法和单一潜变量模型整个视频序列，我们的方法捕捉这些依赖关系。通过从主要潜变量推导出的中间三平面表示，合成单个视频帧。这种新颖策略通过 FLOPs 测量将计算复杂性降低了 2 倍。因此，我们的方法方便了高效的时间连贯视频生成。此外，与自回归方法相比，我们的联合帧建模方法减少了视觉伪影的生成。通过在基于生成对抗网络（GAN）的生成器架构中集成基于光流的模块，我们进一步增强了模型的能力，从而弥补了较小生成器大小所施加的约束。因此，我们的模型能够以 256x256 像素分辨率合成超过 5 秒 30 帧的高保真视频片段。通过定性和定量评估，我们在包含合成和真实视频片段的三个不同数据集上对我们方法的有效性和多功能性进行了验证。

Jan, 2024

基于 ImageNet 中的野外图像的几何感知 3D 生成

从多样且非结构化的 Imagenet 数据集中，我们提出了一种从二维图像中重建三维几何模型的方法，使用高效的三平面表示法学习三维模型，并基于 StyleGAN2 的生成器架构对高度多样化的数据集进行调整，通过多视点辨别防止模式崩溃并提升训练稳定性。

Jan, 2024

TPA3D: 快速文本到 3D 生成的三面关注

为了实现快速的文本到 3D 生成，本文提出了 Triplane Attention for text-guided 3D generation (TPA3D)，一种基于端到端可训练 GAN 模型。通过对提取的句子和单词级文本特征进行注意力机制，TPA3D 能够生成与细粒度描述相对应的高质量 3D 纹理形状，并呈现出令人印象深刻的计算效率。

Dec, 2023

SYM3D：学习对称三视平面提升 GAN 的三维感知能力

提出了 SYM3D，一种新颖的 3D-aware GAN，通过利用自然和人造物体中普遍存在的反射对称结构，结合提出的视角感知空间注意机制来学习三维表示，从而在只使用单视图图像进行训练时捕捉详细的几何和纹理，同时证明了在文本到三维任务中利用对称性正则化有助于减少模型中的伪影。

Jun, 2024

三维感知视频生成

本文探讨了生成对抗网络 (GANs)，将神经隐式表示与时间感知区别器相结合，发展了一种 GAN 框架，仅用单目视频合成了 3D 视频，能够学习可分解的 3D 结构和运动的丰富嵌入，实现了新的时空渲染视觉效果，同时也能产生与现有 3D 或视频 GANs 相媲美的图像质量。

Jun, 2022

多模态条件下的三维感知图像生成和编辑

本文提出了一种新颖的端到端 3D 感知图像生成和编辑模型，通过纯噪声、文本和参考图像等多种条件输入，在 3D 生成对抗网络（GANs）的潜在空间中深入研究并提出解缠特性较好的生成策略，同时采用统一框架进行灵活的图像生成和编辑任务，实现多模态条件下的多样图像生成、属性编辑和风格迁移。广泛实验证明，该方法在图像生成和编辑方面在质量和数量上均优于替代方法。

Mar, 2024

Compress3D：来自单张图像的 3D 生成的压缩潜空间

通过使用 triplane 自编码器将 3D 模型编码为紧凑的 triplane 潜空间，本文提出了一种有效压缩 3D 几何和纹理信息的方法，并引入了 3D 感知交叉注意机制，从高分辨率的 3D 特征体积中查询特征，提高了潜空间的表示能力。同时利用图像嵌入和形状嵌入作为条件，通过扩散先验模型估计形状嵌入，实现了优于现有算法的性能，且仅在单个 A100 GPU 上耗时 7 秒。

Mar, 2024

高效几何感知的三维生成对抗网络

使用单视角 2D 照片集合进行高质量多视角一致的图片和 3D 形状的非监督生成一直是一个难题，本文提出了一种混合显式 - 隐式网络架构，用于提高 3D GANs 的计算效率和图像质量，实现了高分辨率实时多视角一致的图像合成，同时产生高质量的 3D 几何体。

Dec, 2021

OrthoPlanes：GANs 的更好 3D 感知的新表示方法

我们提出了一种新的方法，通过 2D 图像集合生成具有精细几何形状且视角一致的逼真图像。我们的方法使用一个名为 OrthoPlanes 的混合显式 - 隐式表示，它在功能图中编码了细粒度的 3D 信息，并通过修改 2D StyleGANs 可以高效地生成。与以前的表示相比，我们的方法具有更好的可伸缩性和表达能力，提供明确和显式的信息。因此，我们的方法可以处理更具挑战性的视角，并合成具有高度空间自由度的关节对象。实验证明，我们的方法在 FFHQ 和 SHHQ 数据集上在定量和定性上都达到了最先进的结果。项目页面：https://orthoplanes.github.io/。

Sep, 2023