PixelSynth: 从单张图像生成 3D 一致的体验

ICCVAug, 2021

PixelSynth: 从单张图像生成 3D 一致的体验

PixelSynth: Generating a 3D-Consistent Experience from a Single Image

Chris Rockwell, David F. Fouhey, Justin Johnson

TL;DR使用可微分渲染和 3D 推理相结合的自回归建模方法，实现了单幅图像的大视角高度一致性生成，比其他方法在视图生成和 3D 一致性方面具有显著的改进。

Abstract

Recent advancements in differentiable rendering and 3d reasoning have driven exciting results in novel view synthesis from a single image.

differentiable rendering 3d reasoning view synthesis auto-regressive modeling scene synthesis

发现论文，激发创造

SynSin：从单张图像到端到端的视角合成

本文提出了一种使用真实图像来训练、无需 3D 场景真值信息，通过可微分点云渲染器将潜在 3D 特征点云转换为目标视图输出图像，并通过细化网络解码来填补缺失区域的新型端到端模型，在测试时可以对潜在特征空间进行可解释的操作，可以生成高分辨率图像并推广到其他输入分辨率，将在 Matterport、Replica 和 RealEstate10K 数据集上优于基线和之前的工作。

Dec, 2019

从单张图片合成一致的长期 3D 场景视频

在这篇论文中，我们提出了一种新的方法来从单个场景图像和大摄像机动作轨迹中综合出一致的长视频，并使用自回归 Transformer 以及基于摄像机的局部性约束来预测多个帧之间关系和下一帧，从而实现了对多帧的序列建模，优于现有的方法，尤其是在室内 3D 场景的长期未来合成中表现出色。

Mar, 2022

室内三维场景的简单有效合成

研究如何从 1 或多张图像中合成逼真的室内 3D 场景，采用了基于图像的 GAN 来直接映射成高分辨率的 RGB-D 图像，及在 VLN 训练中进行空间干扰以提高成功率。

Apr, 2022

Consistent-1-to-3: 基于几何感知扩散模型的一致的图像到 3D 视图合成

通过利用生成模型，将零样本新视点合成问题分为两个阶段，即将观察到的区域转化为新视图和对未见过的区域进行幻觉。为了解决 3D 一致性问题，本文提出了一种具有几何约束的极线引导注意力和多视图注意力的场景表示方法。通过多个数据集的定性和定量评估，证明了所提出机制在效果上优于现有方法。

Oct, 2023

使用多平面图像进行单视图合成

该论文利用深度学习技术对单张图片进行多平面图像生成，应用于视图合成问题中，并将 scale-invariant 视图合成应用于监督训练，在在线视频上进行训练。该方法适用于多个数据集，可以生成合理的深度图，并且可以学习填充前景物体背后的内容。

Apr, 2020

Efficient-3DiM：一天学会通用的单图像新视角综合器

我们提出了一种简单而有效的框架 Efficient-3DiM，用于学习单张图像的新视角合成器，通过减小训练开销，包括精心设计的时间步长采样策略、更优质的三维特征提取器和增强的训练方案，实现了将总训练时间从 10 天缩短到不到 1 天，并在相同计算平台上（8 个 Nvidia A100 GPU 实例）加速训练过程。我们进行了全面的实验来证明我们提出方法的高效性和广泛适用性。

Oct, 2023

通过视角合成实现分层结构化三维场景推断

该研究提出了一种从单个输入图像中推断出场景的分层结构 3D 表示的方法，使用视图合成作为代理任务来弥补直接监督缺失的不足，并展示了其在两种不同场景下的定性和定量验证结果。

Jul, 2018

生成视角合成：从单视角语义到新视角图像

本文提出一种叫做 GVS 的方法，可基于输入的语义地图，综合出多个真实感的场景视角，还可进行风格操作和图像编辑操作，如通过简单处理输入的风格图像和语义映射来添加或删除对象等。

Aug, 2020

Consistent123: 提升一张图像到三维物体合成的一致性

使用大型图像扩散模型，通过引入跨视图关注层和共享自注意机制，提出了 Consistent123 模型以实现同时合成新视角，并在 3D 重建和图像到 3D 生成等下游任务的表现上有显著提升。

Oct, 2023

具有扩散模型的长期光度一致的新视角综合

本文提出了一种基于条件扩散模型的新型生成模型，用于从单个输入图像生成相对的摄像机视图的连续序列的照片般逼真、视角一致、空间几何连续的图像。

Apr, 2023